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第 一 
这 份 材料 是 我 学 习 和 讲授 《生物 信息 HE) DERN ЕЕ 记 ， 材 料 大 多 是 根据 当时 收集 的 一 
些 外 文 资料 翻译 编辑 而 成 。 学 生 在 学 习 过 程 中 经 常 要 求 我 给 他 们 提供 一 些 中 文 的 讲义 或 材 
料 ， 这 优 使 我 把 我 的 这 份 乞 E 记 整理 并 放 到 网 上 ， 供 大 家 参考 ， 提醒 使 用 者 的 是 ， 这 份 材料 
ады. 息 学 的 一 些 浮 浅 的 认识 整理 而 成 ， 其 中 的 错误 和 偏颇 只 能 请 读者 自 监 


2001 年 6 月 


第 二 版 

自 1999 年 开始 接触 生物 信息 学 以 来 ， 一 晃 已 近 六 年 ， 而 本 札记 也 近 四 岁 了 。2001 和 2002 年 中 
国 科 学 院 理 论 物 理 所 的 者 柏林 院士 在 浙江 大 学 首次 开设 生物 信息 学 研究 生 课 程 ， 我 作为 他 的 
助教 系统 地 学 习 了 生物 信息 学 ; 同时 ， 借 着 我 国 水 稻 基 因 组 测序 计划 的 机 遇 ， 在 他 的 带领 下 
从 2001 年 开始 从 事 水 稻 基 因 组 分 析 ， 从 此 自己 便 完 全 投入 到 这 一 靳 新 、 引 人 入 胜 的 领域 中 

















































































































Ж. 
不 断 有 来 信 向 我 索要 本 札记 的 电子 版 文件 ， 同 时 在 不 少 网 站 上 看 到 推荐 该 札记 的 内 容 。 生 物 
信息 学 、 基 因 组 学 等 发 展 很 快 ， 现 在 再 回头 审 看 该 杞 记 ， 有 些 部 分 已 惨 不 蕉 读 ， 这 促使 我 下 









































决心 更 新 它 。 但 因 时 间 和 学 识 问题 ， 还 是 有 不 少 部 分 自己 不 甚 满意 ， 就 只 有 待 日 后 再 努力 
了 。 我 的 硕士 生 温 晓 协 助 收 集 了 部 分 资料 。 欢迎 告诉 我 札记 中 的 BUG, 我 的 信箱 


fanljüzju.edu.cn 或 bioinplantQzju. edu. сп. 








2005 年 3 月 30 日 








第 三 版 
近年 来 高 通 量 测序 技术 产生 的 序列 数据 大 量 出 现 ( 如 小 RNA 和 大 规模 群体 SNP 数 据 ) ， 本 次 更 
新 根据 这 一 进展 增加 了 两 章 内 容 ， 分 别 是 第 七 章 有 关 小 RNA 的 分 析 和 第 八 章 遗 传 多 态 性 及 正 向 
选择 检测 。 两 章 内 容 由 我 的 博士 生 王 煜 为 主编 写 ， 李 泽 峰 和 刘 云 参 与 了 文献 整理 。 另 外 还 更 
新 了 第 四 章 有 关 水 稳 基 因 组 分 析 一 节 。 
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主要 分 子 生物 信息 数据 库 
生物 信息 学 主要 分 析 软 件 





第 一 章 生物 信息 学 通论 
第 一 节 生物 信息 与 生物 信息 学 
一 、 迅 速 脱 胀 的 生物 信息 
一 、 生 物 信息 学 的 概 你 
зор ЧИНУ 
第 三 节 基因 组 时 代 : FEWER FN WAS RS 
第 二 章 分 子 数据 库 
第 一 节 初级 数据 库 
一 、DNA 数 据 库 
一 、 基 因 组 数据 库 
=. Ж ҢИРИ a Bi E 
四 、 蛋 白质 结构 数据 库 


8-0 初级 序 刚 数据 的 注释 
8-0 数据 库 信 息 检 索 系 统 
第 四 节 数据 库 的 元 余 与 偏 误 
$n» BJ B E Rr) M B Fu 


第 二 章 序列 分 析 与 比较 
8-0 序列 组 成 和 单一 序列 分 析 





‚ ЕРШ 


ЖОШ УЖ 38 


、 同 向 重复 序列 分 析 
、DNA 序 列 的 几何 学 分 析 一 一 2 曲线 


ЛЯ ЗК А 


、Needleman-Wunsch 算 法 
. Smith-Waterman & 法 
、 序 列 相 似 性 统计 特征 


1、 二 进 制 值 或 标准 比值 (Bit Score) ; 2. РЁ (P-value) ; 3, 
BLAST 和 FASTA iN 2 ER XR MR; 4. 7217 А (gapped 
alignment ) 的 统计 问题 ; 5、 边际 效应 (edge effect) ; 6. B Я 


阵 的 选择 ; 7、 空位 罚 值 ( gap penalties ) 


„РИВА 


1、 和 替换 矩阵 的 一 般 原 理 ; 2. PAMA HR HHEH; 3. BLOSUM 
АЖ HMI; 4. DNAT ORB 
多 序列 联 配 


第 三 节 数据 库 搜索 引擎 一 一 BLAST 和 FASTA 应 用 
一 、 数 据 之 海 与 一 叶 轻 丹 
—. BLAST: 核酸 数据 库 搜索 
1、BLAST 实 战 操作 (1) ; 2、BLAST 的 检索 报告 ; 3、BLAST 选 
М; 4、BLAST 实 战 操作 (2) 
. BLAST: Ë B D H B ER 
Д. FASTA: 另 一 种 搜索 策略 
1、FASTA 选 项 ; 2、FASTA 实 战 操作 及 其 检索 报告 
BUD BR AM iz it 
-. BR dx 
1、 引 物 设计 ; 2、 用 于 检测 相关 基因 的 简 并 探 针 
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第 四 章 基因 组 测序 与 分 析 
第 一 节 DNA 测 序 与 序列 片段 的 拼接 
一 、DNA 测 序 的 一 般 方 法 
1、DNA 测 序 的 基本 原理 ; 2、 双 脱氧 测序 法 ( Sanger 法 ) ; 3、 化 
学 测序 法 ( Maxam-Gilbert 法 ) ; 4. % X Ë WW 0 
—. DNAR B dll Је si Ni 
1. M ES. D EHNESEBNAm8à;2. 58 Л U 


(shotgun sequencing) ; 3. 5| J 75 # i (primer walking) ; 4. 





限制 性 酶 切 - 亚 克隆 法 (restriction endonuclease digestion and 
subcloning ) 


. E WA ЖШ 


||| 


四 、 序 列 片段 的 拼接 方法 
h. ESTÄ F 
$ 5 基因 组 注释 : 基因 区 域 的 预测 
=. MIR УАЙ 
1、 基 因 及 基因 区 域 预 测 ; 2、 发 现 基因 的 一 般 过 程 ; 3、 解 读 序 列 
( making sense of the sequence ) 
—. RKORFAS: 基于 编码 区 特性 
、 序 列 相似 性 比较 法 
、 隐 马尔 可 夫 模 型 ( HMM ) 
„нама 
六 、RNA 二 级 结构 预测 
第 二 节 基因 组 分 析 
一 、 基 因 组 分 析 : 生物 信息 学 发 展 的 “史记 ” 
一 、 上 比较 基因 组 学 
第 四 节 基因 组 分 析 举 例 : Kd # BB 
一 、 现代 的 二 倍 体 ， 古 老 的 多 倍 体 
—. 最 小 的 核 基因 组 : 基因 组 在 扩 增 还 是 在 缩小 ? 
МИННИ 
水 稻 高 GC 售 量 基因 的 进化 机 制 
水 稻 小 RNA 可 能 是 驯化 和 育种 选择 的 地 基因 
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第 五 章 分 子 进 化 
8-0 系统 树 及 其 它 


一 、 系 统 树 
二 、 遗 传 模型 和 序列 距离 
二 、 分 子 进化 与 系统 发 育 分 析 软 件 
第 二 节 ШИШИЙ 
一 、 平 均 连接 肾 类 法 ( UPGMA 法 ) 
二 、Fitch-Margoliash 算 法 
=. WE 
8-0 简约 法 
第 四 节 似 然 法 
一 、DNA 序 列 的 似 然 模型 
二 、 两 条 序列 的 系统 树 
、 多 条 序列 的 系统 树 
四 、 对 系统 树 Bootstrap fil FE 


ЯЛЕ 蛋白 质 结构 与 功能 预测 

第 一 节 和 蛋白质 功 能 预测 
一 、 根 据 序列 预 济 功 能 的 一 般 过 程 
一 、 通 过 比 对 数据 库 相 似 序 列 确定 功能 
三 、 序 列 特 性 : BO KO U. Виз 
四 、 通 过 比 对 模 序 数据 库 等 确定 功能 

第 一 节 蛋白质 结 构 预 济 
-, RARAHI HA А 
二 、 二 级 结构 预测 





二 、 三 级 结构 预测 
第 三 节 计算 机 药物 辅助 设计 


第 七 章 内 源 非 编码 小 RNA 分 析 
第 一 节 miRNA 的 主要 特征 及 计算 识别 
一 、 miRNA 的 主要 特征 
二 、 miRNA 的 计算 识别 
=. miRNA 革 基因 预测 
第 二 节 ta-siRNAs 等 的 计算 识别 
一 、 ta-siRNAs 的 主要 特征 
二 、ta-siRNAS 的 计算 识别 
=. 起 源 于 NATs 的 siRNA 
四 、 ЗІАМА Е H F W 
第 三 节 小 RNA 进 化 分 析 
一 、 小 RNA 进 化 研究 概况 
二 、 水 稻 小 RNA 的 进化 分 析 
=, 水 稻 miRNA 位 点 遗传 多 样 性 与 驯化 选择 研究 
第 四 节 J RNA X NB E 
一 、miRBase 数 据 库 
一 、 SiRNA 数 据 库 
三 、CSRDB 和 ASRP 





四 、 Gene Expression Omnibus (GEO) 
第 八 章 遗传 多 态 性 及 正 疝 选择 检测 





第 一 节 和 群体 遗传 多 态 性 估算 
一 、 影响 群体 遗传 多 样 性 的 因素 
二 、 等 位 基因 频率 
=. DNA 多 态 性 
第 二 节 正 向 选择 的 统计 检验 
—. 目 然 选择 的 分 类 
—. 中 性 检验 
三 、 全 基因 组 扫描 及 假 阳性 
四 、 研 究 案例 


附录 : 











生物 信息 学 常用 词汇 与 代 碍 

生物 信息 学 主要 英文 术语 及 释义 

与 核 背 酸 和 蛋白质 序列 相关 的 特征 关键 词 表 

核 音 酸 和 氨基 酸 代码 
主要 分 子 生 物 信息 数据 库 

参见 《Nucleic Acids Research》( 网 址 ) 每 年 一 月 出 版 的 数据 库 专刊 ( 其 
中 2010 年 列表 ) 





生物 信息 学 主要 分 析 软 件 
参见 《Nucleic Acids Research》( 网 址 ) 每 年 七 月 出 版 的 生物 信息 学 软件 
专刊 ( 其 中 2009 年 列表 ) 
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57 ен Tools for data mining 
PubMed Entrez BLAST OMIM Taxonomy Structure 


Search [SenBank >] for | Go| 


NCBI B ST The Basic Local Alignment Search Tool 

2 | à 人 (BLAST), for comparing gene and protein sequences 
SITE MAP against others in public databases, now comes in 
several flavors including PSI- BLAST. PHI-BLAST, and BLAST 2 sequences. 
Specialized BLASTs are also available for human, microbial, and malaria 
genomes, as well as for vector contamination, immunoglubulins, and tentative 


standard tool human consensus sequences. 
for sequence 
analysis 














Clusters of Orthologous Groups (COGs) currently covers 21 
complete genomes from 17 major phylogenetic lineages. A COG is 
a cluster of very similar proteins found in at least three species. 
The presence or absence of a protein in different genomes can tell 
Clusters of us about the evolution of the organisms, as well as point to new 
drug targets. 
Orthologous 


Groups ORF finder identifies [electronic Electronic 
all possible ORFs іп а PCR PCR allows 
ОМА sequence by O01I01011AGCGT| you to search 


locating the standard your DNA 
and alternative stop sequence for sequence tagged site 
and start codons. The (STS), which have been used as 
deduced amino acid landmarks in various tvpes of aenomic 








finds open 
reading 
frames 
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of computational biology, the application of quantitative analytical techniques in 
modeling biological system.” (Gibas and Jambeck, 2001) 


ООООПОПОПООПООООООООООООООООООООООПООПОО 
ПОШ Ва nfornati cst] ОПОПОПООПО (2000, мо! 16 no. 310 0 O0 U 000 
0000000000000 20020 20 47-52)ПППППППППППППППП 
000000 (1)“ 0000000000000 ”000000000000000 
OO 20000000000000000000000000000000000 
ООООООПООООООООООООООООООООООООПООООООО 
ООООООПООООООООООООООООООООООПООПОООООО 
ООООООПООООООООООООООООООООООПООПОООООО 
00000000000000000000000000(2)"“ 000000000 
000 "00000000000000000000" ооооооооово о 
000 "0 0000000000000000000000000000“ 00 "0 
ООООООООООООООООООООООООООООООПООООООО 


4 


000 


000000000 


http://ihli.zju edu cry bi oi пр! ant/ 


СО L3 L3 L3 L3 с СО L3 L3 L3 ЗО = Ресет cf ef cf ce ен | cn aaa aa Š a= 
гагага са са са са са са со са са са с со со с со со со со с со со со со со то со со со ся 


ис Дава ES En ти Диви гаг ээ 5 вето от ке = ш = [ев og ао ES сее тап зы | шыл) 0 
с с со со со с 6 с с с СЗ го EET О талка Бий [= нэ пы — тє ий пы к 
о ка шш [кн {шей на шл [ша — [М ES [SEDE EX ES a Ed = EX. Eq EE TEES Fog = 
ii В со зо == {ты яя еш tio кшн Ш эп с шы m 3.1 гагага = 
ce oe es пеш и но Lr, Soo EE EE та МЕ Sie 85) 
ли el olf es oe fo ш = ешрш = шшш = ы ESSE (шшш сє 9) 
=a шэ эз эгээ аал = 
p;E!uguuumuumgug ogo с=т дг са sooo @ 
сзсз ВО СЗ со С ea Moone ыл ыр 000032200 5 га 
са со ЕС с Е са = гї Hono о С со ро бе ССЗ С =a SoS 
=== === = зае оазис ogun 
== — E. ве === по oH 
口 口 口 口 访 口 口 口 口 二 口 口 1 Баа шо ааны цы 3 Се сзсо со pd 
са со СО СО — СО с СОС С са га а о Неее“ O25200 шд 8 = 
О“ особа 加 аба eB dadas Cy SaaS Soe 
c Huumgugduimuunmug ч Веесообгеосов?бо" = виене ышы 
а 25 2 Ey E Es ee ыо ёоо a= О F 
с сас с са с И на го обе һо С гг со СО сос Н uuum EI 
Бїс E ВИЕ ТЕЛ ES pee qui E, Ши эш {шы аа CuguumgHguag E 
ric у ве ЕД к= ыч — га Ee E == за себсне еее =5 0 
=== === === Га оао 3 ин аг: ас: oo oppo 
Eo emu e са = Зоваес Ообооовобо гг = шэн 
ЕТЕГІН эю ЫН єт [шн = ar гак л ганг гг а O20000 m 
Ho е See eee иш асе ооо орао е Во биене ны 2 
БЕНЕН ве нє ал ГЭЕ ES pj тө ЧИ эг E EP геге ЕЕ б 
и раву ee а рај пан = Pena Е Е el ред жыка к SEQ = 
а [шш Se | ы ке |ы гк — шз ЕЕЕ еее с шыгы с, = шті ге {тч 245 
соса сее — = Са се с ccnmmgmnagg&onggnuogd O и o 
гага = а Оаа гч Е rri Еа ај r РФ кі) жа) па) В 
БІРІ ере ем ры ee Ес Е са лага = = ез тыгы P ае В ст е 
cugyuuuHuiuuumndg Е Еа Е єз жш шы элш ЕЕ а m В 
=e тиц бею = Бед се ны ea ЖЫ = ча EQESESESERESES a = [эш сє | ЛЕГЕ; Е 
ыыы с са 9 2) со со с — са Сасан в са === тез 5.5 os 
какагагагїгак МЕКЕН == = 5 оооооооооввоод зоо „са 
са са со су са 22 $ С са со са 03 Ed IEEE EYE r= = <= вза еј ват сагы 
Bc 
s EE 


proteomics & bi oi nf ornati cs QOO Proceedings / 1 ЕЕЕ 


ООСОООООООООООООООООООООООО Асб edB oi nfornati с 1] 
П Briefings i n В oi nf ornati cs[[[] | ournal of bi oi nf ornati cs and conput ati опа! 


bi ol ogy[][][] Genonncs, 


http://ibi.zju edu cry bi oi npl ant/ 000000000 000 


Conputer Society Bioinfornatics Conference] ПОООООСООООСООМ 

Bi oi nf ornati cs[] (www bi onedcentral . со П0000000000000000 
11111 1 Nucleic Aci ds Веѕеагсћ 0 Genone Research] Genomics[T]] J. Mil. 
Bi ol . [IT] B oTechni ques[TT] В oTechnol ogy Software] р П 


http: // bi . zj u. edu cy bi oi npl ant/ 000000000 000 


012 0000000000 





1962 Pauli ngg 0000000 
1967 Dayhoff 0000000000 


1970 Need! enan- Winsch [| 0 [ 0 0 

1977 Staden[] ПППППППП смо [| 

1981 Snnt h- Véternan[] [| 0 0 

1981 0000 (mtif) OO 0 0 о (Doolittle) 


1982 GenBank о ПП (Ра! езе [] [] ЕМЕ [] [| 
1982 Ме 9:0 
1983 \ bur 0 ПрәпПППППППППППП (WI ber- Li pnan [| 





П) 

1985 ППППППППППП FASIP/FASING O 

1988 ППППППППППП (ЭГ 

1988 ППППППППП EMmet 0 000000000 CGenBank EMBL 
l ПВОПППППП 

1990 ППППППППППП BASTO O 

1991 ПППППП(БОПП П ППППП ESTOD 

1993 ПП Sanger 0000000000 

1994 D000000000000 Hnxon[ 0 

1995 ПППППППППППВ 

1996 000000000 

1997 PSI - BLAST( BLAST[] O00 000)00 

1998 Phil G&een [] 700000000000 =Phred Ригар- Consed [| 
00000 

1998 00000000000о 

1999 000000000 

2000 ППООООООООО0 

2001. 000000000000 

ЖІПППППП (АВ ) Educat i on- Bi oi nf ornati cs МІ estone( 2000) [] 


ПППППП 

ППППП 19990 0000 00000 0 0 0 000 000 Ри деептп 00000 
ОПОООПОООООПООООООООПОООПО 
ЖПППППППППППЦПЦПЦ Needleman SB, Wunsch CD. A general method 
applicable to the search for similarities in the amino acid sequence of two proteins. J 
Mol Biol. 1970 [] 48(3):443-53[] Staden R. Sequence data handling by computer. 
Nucleic Acids Res. 1977 []4(11):4037-51[] Smith TF, Waterman MS. Identification of 
common molecular subsequences. J Mol Biol. 1981[] 25:147(1):195-71| Doolittle RF. 
Similar amino acid sequences: chance or common ancestry? Science. 1981[] 
214(4517):149-59[] Wilbur WJ, Lipman DJ. Rapid similarity searches of nucleic acid 
and protein data banks. Proc Natl Acad Sci U S A. 1983[] 80(3):726-30[] Lipman DJ, 
Pearson WR. Rapid and sensitive protein similarity searches. Science. 1985[] 
227(4693):1435-41[] karlin S, Altschul SF. Methods for assessing the statistical 
significance of molecular sequence features by using general scoring schemes. 
Proc. Natl. Acad. Sci. USA, 1990, 87:2264-2268[] 


000 


000000000 


http: //1Ы .zju edu cry bi oi пр! ant/ 


сроден 
СО £ Co CI 
гаш Op% 
ooog ud 
oo Hog 
се) — газ 

а О О ы 
шээг. 
口 品 口 口 5 ð 
zm Г.О г. 
К га с 
e = rir 
ooog о 
СЗ са СЗ со сз со са 
Бү!) 9 със ке 
Ос) с © са 
во =8 = 
口 口 口 口 口 一 
Se 


= ч 9 сэг 
28 ыт 

-- = 
22029 3 = 
25-59 = 
i= 6} ug 
说 从 口 口 一 他 口 

В гэссс: = 





red Phrap- GonsedD 0 


Ё (сі 


ТЕ 


00000 


П 14 ПППППП Phi Green 








П scexe00000 


ППППППП csera000000 


[ 15 Ature Sc/ence2001[] 20 1500 16 


http: //1Ы . zj u. edu cry bi oi npl ant/ 000000000 000 


016 ППППППППППП (МВОПП (1989-1999 1000 0 NAD 19991 




















Нитап бепоте 


Тэ DNA 碱 基 对 数 LocusLink 


(aA) RefSeq Microbial 
dbSNP Genomes 3000 
PHI-BLAST 
CGAP 
| 2500 
PubMed 
PSI-BLAST 
Gapped BLAST 
COGs 2000 
VAST 
ePCR 
UniGene 
Congressional GeneMap | 1500 
ЖҮЙ! 3-0 
legislation Яана OMIM 
establishing NCBI Вапки Sequin 
was signed on Network Genomes Cn3D 
| 1000 


November 4, 1988 Entrez Taxonomy | 
| | ” 
анг | м 

46575 


BLAST Entrez dbEST 500 








У 





v У 





T i ' 0 
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 





ЖППППППП Сепвапк 1 ПП ПАПППППППППППППОП 
*ППППППППППП 

1989) МВ О 00000 19880 10000 

1990] BLAST 00000000 


1991 EntrezQ OOO (00)000 

19921 СепВапк 0 МВО KB ПП ESQ] D] D] DU] D )U 00 (4650 

1993) Etrez0 0000000000 етге 000 00000 000 0 0 00 

1994] KB ППО0ПО 5750 00000 )0 00 (9455750 МВ 000 

1995] П GnBark(][] ПАПППП Ваик*000000000000000000 
0000000 МВ 00000000000000000 

199600000000000000UiGned GneveeC 0000000)0 


CM M ОЧ i ne Mendel i an | nheri tance і п Ми) 300 0000000000 
ПП Sequi по ПО 
19977] 000 O PubMed 00000 PSI - BEAST( Posi ti on Speci fi с terat ed 
BLAST)[] Gapped BLAST( O00 0)0 0000000000 VESTE]. РО ] Ú 
П СОЧ dusters of Qthol ogous G'oups)[Li 00 0000000 


СО 
3 
са 
са 


Н - BLAST( Pattern Ht Initi al ed BLAST)[] 


000 


Р 
GHP) ПП 
O00 0 0 О Locus! i пк Ref Seq[] ООСАР] 


http://ihli.zju edu cry bi oi пр! ant/ 


000000000 000 


Quzouni $ П Val enci à] 20030 П O Christos А Qzouni s and А f onso Val enci a. 
Earl y bi oi nfornati cs: the birth of a discipline ------ a personal vi ew 
Во! nfornatics. 2003, 19 17): 2176-2190 000000 19000000 900 


D000000000000000 
000000000000000 
Smith МЕ er nan[] 0 (1981) [] 000 


0 0 0“ ТОР 20 РАРЕВЅ’ ПП 1.300 
ПОПООПОПОВО 


000000 
000000 
000 


0 L3Q00000000000 2000000000 Ouzounis and Valencia 


П 2003111 


Publication 


Zuckerkandl апа Pauling, 1965b 


Fitch and Margoliash, 1967 


Needleman and Wunsch, 1970 


Lee and Richards, 1971 
Chou and Fasman, 1974 
Tanaka and Scheraga, 1975 
Dayhoff, 1978 

Hagler and Honig, 1978 
Doolittle, 1981 
Felsenstein, 1981 
Richardson, 1 981a 

Kabsch and Sander, 1984 


Novotny et al., 1984 
Chothia and Гезк, 1986 
Doolittle, 1986 

Feng and Doolittle, 1987 
Lathrop et al., 1987 


Ponder and Richards, 1987 
Altschul ef al., 1990 


Bowie et al.. 199] 


СО 
СО 
СО 


Р 


EJ E3 EJ со со E3 E3 
E E3 EJ со со E3 E3 
съ E3 EJ со EJ E3 со E 
Съ са EJ со EJ E3 со EJ 
съ E3 EJ со EJ E3 со EJ 
гігігігігіІГІГІГІ 
със) r3 съ СЗ го r3 
L3 E3 E3 О со r3 
L3 нан rcr — лан H 
E3 r3 со c D p г 
E3 r3 c3 Чг г 


ГА 


2 


= со ово Ола 


Comments 

First use of molecular sequences for evolutionary studies 

Use of molecular sequences to build trees 

First implementation of dynamic programming for protein sequence comparison 

Calculation of accessibility on protein structures 

First secondary structure prediction method 

Simulation of protein folding 

First collection of protein sequences 

One of the first explicit attempts to simulate protein folding 

Seminal paper examining divergence and convergence in protein evolution 

One of the first statistical treatments of evolutionary tree construction 

The most comprehensive description of protein structure to that date 

Discovery with profound implications for model building by homology and structure 
prediction 

The inability of distinguishing correct from incorrect structures threw back structure 
prediction approaches for a long while 

Examination of divergence between sequence and structure 

Influential book on sequence analysis 

The first approach for an efficient multiple sequence alignment procedure, later 
implemented in CLUSTAL 

One of the first applications of Artificial Intelligence in protein structure analysis and 
prediction 

The very first threading approach, using sequence enumeration 

The implementation of a sequence matching algorithm based on Karlin's statistical 
work 

The first implementation of protein structure prediction using threading 


СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 
СО 


са са H 
oon 
oon 
oon 
ooo 
ooo 
oo H 
oo H 

= 

= 


Р 


0000000 


nooo Goo 
са EJ EJ EJ са СУ са 

СЗ С СО СЗ съ СЗ Са 99 
С са С СУ 5 СЗ С га 
nooo съ 02 05 = 
са с с СУ су СО = 
dono | и Дои = 
папи пи = = 
са с 02 05 [5 02 = 
nooo су юм 59 со 
са с с СУ су СО с со 
са со со 27 су со 05 са 
E EX EXE T ET E 
E E3 EX E3 I EFE E3 
L2 Cur E = 
вх пи ет = = = 
E Lir Ebr rm 


CO 
CM 
MOO 
L3 L3 са са 
MO 
oo a 
MOO 
MOO 


000 


000000 


000000000 


17 (7 17 17 17 17 17 17 17 U 17 17 17 17 17 17: DNA TT 17 1717 17 17 (7 17 17 17 17 17 NY 200117 17 
17 LU UU CU 7 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 U 17 [/ 





http://ihli.zju edu cry bi oi пр! ant/ 


[S ES EHE] ЕГЕТ ЕНЕ 
cicer nl 


га L3 L3 СЕ Oo 


Е ESL EST 3 
2 02 02 4 025 = 


= = = = 9 СЗ СУ m 
— С 02 — СЗ ос 


сее 2 © о 


еее гг 


ее Е: ка © гг 


СЗ C3 F3 p4 СЗ съ СЗ Га 


СО СО СО Е Е су Е = 


bas and Jambeck [] (11111 


га га СУ су C3 gaa pr 
[3 C3 E3 ce E3 p E31 ка pr (5 


СЪ СУ СУ гу СТ са O: 


П 
П 


га га Гї — С? гү ОШ p3 aoa 
OOO г L3 гү C3 C3 са с 
OOO p L3 съ L3 СЗ са г 
L- EXE га Л 0112 — EI 
D СО L3 p3 С? p3 L3 СЗ g aoa 
га Га Гї съ L3 съ L3 СЗ са су 
СО L3 L3 съ L3 съ кога 
СО СО L3 с) СЗ су L3 СЗ — ao 
СО СО L3 с) СЗ су СЗ СЗ p3 p 
L3 L3 L3 съ L3 съ = с 
L3 L3 L3 [3 L3 съ = с 
СО СО L3 Г го СЗ со EJ 
СО СО L3 га го: СУ E EJ 
га L3 СУ са C3 r3 Г C3 
га L3 Саса C3 r3 СО C3 са C3 


Са E3 E3 со с EJ E3 EJ со E3 EJ са EJ 
=-= === 
О гігігігІігігІігІГІГІГІГІГІГЕ 
У гъба со со са со со со са со са со со са са 
L2 C3 E3 qg C3 C3 C3 E3 C3 со C3 C3 C3 со C3 C31 03 


га га га C3 ГҮ 
Со L3 са L3 L3 L3 са с 


[] Developing Bioinformatics Computer Skills[] (C. Gibas and P. Jambeck, 


O'REILLY, 2001)] 00000000000 


000 
ar biology. 
ecular modeling. 
ing environment. 
er language Such as 
ОПООПООООПООПООО 
spati al and tenporal pattern)[] 


000000000 


oo sem fee meg lf ec fem а ш = ге с=т= = кс Ooo 
oo Boose Фгагагагагагагагагагагагагага © гагагл o ин) 
га сезво 'б` ar gaa oo 
Og == a 2227 23 21 27 21 27 2 21 9 СЕ Е С +, Сагага Oo 
ге e пе пакт P EYES из шша тї га та к= пшрш т ea S EXEXES oo 
ни Б, 器 口 口 口号 口 口 口 口 口 口 口 口 口 口 口 口 口 口 一 口 口 口 moo 
Е. а па ү; ша) өн ел тшп ан | өн Шен ве па тд ш БЇЇ Jes {ые уре у на | кн | еі ESI за 
г © сеасс © aaa със с са съ 3 со 0303 53 ИЕ 
02 nooo С 221 27 amo == 

aazam on =a 
=== =a 22 И нана 29 на на 21 27 на 20 Ф 2122 22 на 21 на са 
еее - шш шш ш шош 
ова Ооо ү 2 на 2 наў на 2 ee 212 — ты [3 С r3 E3 g с 
ов Е к=) росе о жаШ 22 22 шз 22 271 A 


[zz] 
ВЕ г 2303 са са са са са са са са В с С соса rnm г С у 


жет 


жака жа эы шы Ss и ви а Пт pose Seno 


ае 66 ыга 
какаган ET тез үшш (ыш 
= С с а ан со са 
с с съ есе со 
andn от ке а пы ooo 
тыйт} т жи — Ei та ки же тп эш a 


ша ини = 0 
ooo — = o 
e 
Гігі-- ш 


шека) ш ен шш ENS an кеа кы к Доза БҮГТЕЧ 

севера 22 52 222 === 
шэг so: оон, 002000000 

=-= === 

вее 22 22 2 22 а сее са без 

a= === 门口 中 口 口 口 口 口 口 
eee 5252 51525127152 ee 
за сее га 000000pnp00000000 
~ EJ виа === 
седово ерла aa 
Егіс = ra то з ЕН ЕЛ ЕНЕВ 
Яй кл са ки эы с текш |ы со с на со се с со чи с 


Со Са Со с) съ B3 — OO су C3 L3 — L3 L3 C3 C3 C3 L3 ГЛ СУ E3 C3 C3 со C3 E23 E3 g C3 A 
СО су L3 ЛГ E3 са с ГЛ [3 са са су са C3 L3 са C3 C3 E23 q] 
02010101058 сагагагагагагагасагагагагагагагагагагагагагасагагагагагсаса 

СГІГгГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІІЕІ 
сІгІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІГІ 
гагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагГч 
га гагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагагГчЧ 


.but without a core of knowledge of molecular biology you will ав опе 
* You should have substantial experience with at least one or two major molecular 


* You should have a fairly deep background in some aspect of molecular 
biology software packages, either for sequence analysis or mo 


biology. .. 
C/C++, as well as in a scripting language such as Perl or Python. 


person told us, "run into brick walls too often." 

eYou must absolutely understand the central dogma of molecu 
* You should be comfortable working in a command-line compu 
*You should have experience with programming in a compu 


http://ihli.zju edu cry bi oi пр! ant/ 


oona =-= =m га 
БЇЇ EIL e EE EEG E E EE LEE E С) РЇЇ... | 


12 


000 


000000000 


http://ibi.zj u edu cry bi oi пр! ant/ 


и. edu. cry) ППП 
«ОУДППППППП 


http: // ww і 
bi osi no. or 


П00000000000000 


:/[ibi.zj u. edu. с 


13 


000000000 000 


ШИ ч hb Д 


http://ibi.zj u edu cry bi oi пр! ant/ 


ooog EL EE 
кага йг === 
口令 口 口 口 口 口 口 口 口 
Кї б йг === 
сб ес === 


25288289200 
О Осоје Ы 5 аб ош 
айы 5 © НС = С 
шишийн 5 BE 
сев g p200 
Pa Era тиде Ep Em 
EX йты [шы В бй гш а 


съ L3 L3 L3 — OOOO 
СО Со са су ГГ C3 C3 
СО Со су су съ са са са сгш с 
са Са L3 L3 съ са са са ст са C3 
са Са L3 су са E3 L3 су E3 с: с 
E EST 1-1 га га га Га Са са 
га L3 га га га га га га га са 


p ОВО со га 63 
а 5 а 
СЕЛЕНА 
шэг 
шээг E 
са COCO 
гп сс 
Ei = 
ЕЗІ эзш эш [та как 
жайты e еш тауыш 
Ba ешн EXE 
кы жең ан жарты 
взе вее 
СЗ с г е 
=== 
ка св ын [шн = 
口 口 口 口 口 二 


ГГ 
СО L3 C3 L3 L3 с 
EXE ESTE E EST EST EI 


LE CE EET TH 


ПОП 


000 (European М ecul ar Bi ol ogy 
0 
ІП 


000000000000 30000 DA] [| 
ПППП 

ППОП GenBank 00 

hnol ogy | nf ornati on, 


ПП 
ПП 
ПП 
ot ec 


OU 

2 

MBL) 
(Nati onal Center for 


Laboratory, E 
000000 


ОООООООО 
ПППП (2400 


o „Веа 


“~ 


Databank of | 
| 
| 
| 
| 
ба 
| 


10 


http: //1Ы . zj u. edu cry bi oi npl ant/ ППППППППП 000 


П 21 0000 50000000 

















ПОП (Database) ПП (Address) 
EMBL ww ері. ac. ИК ebi _docs/ еп _db/ ері / t openbl . ht nh 
GenBank ww nchi . nl mni h. gov/ Genbank/ GenbankSear ch. ht nh 
DDB) ww ddbj . ni g. ac. | р 
САО ОООООООПООПО ПЕМ ОООО 20000000 (0 2.2) 
ПОООООООООООООПО 22000000000000000000 
ПППППППП(БИППППППППППППППППППЕМПППП 
ПППППППППП 900000000000000000000000 
ППППППП П ППП Г  П ПО Г 
ПППППППППП ППШ ППП  ПППГ 
000000 0 20040 120 ЕМ (Ва ease81)[] ПАПППОПППП 800 0 
ППППП 4000000000000000000000000000 
(ѕресі е) ППОПООООООООООПОООООООООПООПО 3000 
ПППП(П 23000 ЕМ 000000000000000000000 
000000000000000000 БТОПООПО (0 2.400000 
ПООПОООПООООООООПБООООБОООООООПБООБОПОО 
ППППППППШ  ПП Г Ш ПП ШГГ 
ПППППП(НОППЕМІП GnBark( 0000000000000000 
000000000000000000000000000000000(0 
П 2.110000 
0 22 арро 9А000000000 
uultu uultu пор ПОП u I 
( Rel ease) ( Montt h) (Entri ес) ( Nacl eot i des) 
Rel ease 1 1982[] 60 568 585433 
Rel ease 7 198511 ОП 5789 5622638 
Rel ease 25 199011 ПП 41580 52900354 
Rel ease 29 199111 ОП 57655 75400487 
Rel ease 33 19920 ОП 89100 111413979 
Rel ease 37 1993[] ОП 146576 158171400 
Rel ease 41 1994 [] ОП 230950 226259607 
Rel ease 45 199511 ОП 622566 427620278 
Rel ease 49 1996П ОП 1047263 696183789 
Rel ease 53 19970 ОП 1917868 1281391651 
Rel ease 57 199811 12] 3046471 2164718256 
Rel ease 61 199911 ОП 5303436 4508169737 
Rel ease 65 2000[] 12[] 9549328 10710321435 
Rel ease 69 2001[] 12[] 14366182 15383451165 
Rel ease 73 2002[] 12[] 20857746 27903283528 
Rel ease 77 20030 12[] 30351263 36042464651 


Rel ease 81 2004[] 120 46105397 79271300840 





http://ihli.zju. edu cry bi oi пр! ant/ 





000000000 


000 




















П 2.3 EMLOOO 20040 1200000 (Rel ease81) 
[] | 00 000 ПШПШ Е 
(D vi si on) (Code) (Entry) (Мис! eot i de) 
000000 ESTs EST 24481418 12837493911 
ПП Fungi FUN 110405 221397562 
ППППППП  GnoneSurvey Sequences (55 10726912 6608825736 
ПППППП H gh Throughput Genone НГС 68564 11613533555 
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0000 Prokaryotes PRO 282227 993811176 
00000 Rodent s RCD 31538 110601526 
000000 5155 STS 380660 168545968 
ПП Synt het i с SYN 14240 22721647 
uu Unc assi f еа UNC 2869 2823924 
ut М ruses VRL 262346 241496438 
11111111 Олег Vertebrates VRT 113601 8/9447919 
ut Tot al 39893666 41546740918 
П 24 2000 Е5 7000000000 (Аё ease 81) 
UU jD 4 [] | 
(Subdi vi si оп) (Соппегї5) 
est fun. аас est fun05. dat ПП EST 
est humdat est һип57. dat [] EST 
est i nv. dat est i nv31. dat ППППП EST 
est namdat est nanil. dat ПППП EST 
est pln. dat est р n55. dat ПП EST 
est pro. dat est рго01. dat ПППП ЕТ 
est rod. dat est год07. dat 11111111) EST 
Est vrt. dat est vrt 27. dat ПППП ЕТ 
ПППШПППП 
D00000000000000000000000000000000 
ППППППП (Saccharonyces cerevisiae), П П П O (Mhanococcus 
janeschí) П 30000000000 0 (Aenoohi/us influenzae | | 


(Escherichia со!) ПЦ ü ü U D. UL D] 00 
0000000000 25000000 


(cool asna дет tal i arm 
0000 EMLET T EL D 
ПППППППП 
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O25 ПОООООООООО 
ПППП  Qgani sm ПП (Address) 
000 Asper gi | | us htt p: / / ww nchi . nl mni h. gov/ genone/ gui de/ asper gi | | us 
ПП Bee htt p: / / ww nchi . nl mani h. goV genone/ gui de/ bee 
П Cat htt p: / / www ncbi . nl mni h. gov/ genone/ gui de/ cat 
ПП Frog htt p: / / ww nchi . nl mani h. gov/ genone/ gui de/ f rog 
Muse htt p: / / www ncbi . nl mni h. gov/ genone/ gui de/ nouse 
ПП Бас htt p: / / ww nchi . nl mni h. gov/ genone/ gui de/ rat/i ndex. ht nh 
П Dog htt p: / / ww nchi . nl папі h. gov/ genone/ gui de/ dog 
П Cow htt p: // ww nchi . nl mani h. gov/ genone/ gui de/ cow 
П Ра htt p: / / www nchi . nl папі h. gov/ genone/ gui de/ рі g 
П Sheep htt p: / / ww nchi . nl mni h. goV genone/ gui de/ sheep 
[] Chi cken htt p: / / www ncbi . nl mni h. gov/ genone/ gui de/ chi cken 
000 Zebra fish htt p: / / ww nchi . nl mni h. gov/ genone/ gui de/ zebr af i sh/ i nde 
x. ht nh 
ПП Sea urchi n htt p: / / ww nchi . nl mni h. gov/ genone/ gui de/ sea urchi n 
ПП Caenorhabditi http: / / ww nchi . nl mni h. gov genone/ gui de/ nenat ode 
S el egans 
О ctyostel i um http: // www nchi . nl mni h. gov/ genone/ gui de/ di ct y 
di scoi deum 
ПП Drosophi | a htt p: / / ww nchi . nl mani h. gov/ genone/ gui de/ fl y 
ПП М№ѕаи to htt p: / / ww nchi . nl mni h. gov/ napvi ew nap search. cgi ?chr = 
адаг ae. i nf 
000 Chi np htt p: / / ww nchi . nl mani h. gov/ genone/ gui de/ chi пр 
П Hunan htt p: / / www nchi . nl mni h. goV genone/ gui de/ hunan 
000 Arabi dopsi s htt p: / / ww nchi . nl mni h. gov/ napvi ew nap search. cgi ?t axi 
d-3702 
ПП Cotton htt p: // al godon. t anu. edu 
ПП Мі ге htt p: / / ww nchi . nl mni h. gov/ napvi ew nap search. cgi ?t axi 
9-4577 
ПП Ri ce htt p: / / ww nchi . nl mni h. goV napvi ew nap search. cgi ?t axi 
d=4530 
ПП Wheat htt p: / / ww nchi . nl mni h. gov/ napvi ew nap search. cgi ?t axi 
d=4565 
ПП Barl ey htt p: / / ww nchi . nl mni h. gov/ napvi ew nap search. cgi ?t axi 
9-4513 
ПП Soybean htt p: / / ww nchi . nl mni h. gov/ napvi ew nap search. cgi ?t axi 
d=3847 
000 Топа о htt p: / / ww nchi . nl mni В. gov/ napvi ew nap search. cgi ?t axi 
d-4081 
ПП Sor ghum htt p: / / ww nchi . nl mni h. gov/ napvi ew nap search. cgi ?t axi 


d=4557 
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022 00000 
000000000 
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SQP( Structural classification of protei nso П0 00000000060 
ПППППППП П П  ППШОМНЫ ЗОРППППППППП 
029 000000000000 

uU 11 0 | 
(Database) (Address) 
РГВ htt p: / / ww rcsb. or g/ pdb 
NRL- 3D htt p: // pi г. geor get own. edu/ pi гуму sear ch/ t ext пг! За. ht nh 
НБЭР htt p: / / ww sander. елім - hei del berg. de/ hssp 
50Р htt p: // scop. ппс- | nb. camac. uk/ scop 
CATH htt p: / / ww bi осћега ис! . ac. uk/ bsn cat h 
000 ШЕ 
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LISOD standard; DNA; PRO; T56 BP. 
X64011; 578972; 
X64011.1 


28-APR-1992 (Rel. 31, Created) 
30-JUN-1993 (Rel. 36, Last updated, Version 6) 


L.ivanovii sod gene for superoxide dismutase 
sod gene; superoxide dismutase. 


Listeria ivanovii 
Bacteria; Firmicutes; Bacillus/Clostridium group; 
Bacillus/Staphylococcus group; Listeria. 


[1] 

MEDLINE; 92140371. 

Haas å., Goebel М. ; 

"Cloning of a superoxide dismutase gene from Listeria ivanovii by 
functional complementation in Escherichia coli and characterization of the 
gene product.“ ; 

Mol. Gen. Genet. 231:313-322(1992). 


ХХ 

ЕМ [2] 

RP 1-756 

КА Kreft J.: 

RT : 

RL Submitted (21-АРЕ-1992) to the EMBL/GenBank/DDBJ databases. 

RL J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Ап 

RL Hubland, 8700 Wuerzburg, FRG 

ХХ 

DR SWISS-PROT; Р28763; SODM LISIV. 

ХХ 

ЕН Кеу Locatior/Qualifiers 

FH 

FT source 1.. T56 

FT /db xrefz"taxon:1638" 

FT /organism-"Listeria ivanovii" 

FT /strain-"ATCC 19119" 

FT RBS 95.. 100 

FT /genez" sod" 

FT terminator T23.. T46 

FT /genez" sod" 

FT CDS 109..717 

ЕТ /db xrefz"SWISS-PROT:P28763" 

FT /transl table-11 

FT /genez" sod" 

FT /EC number-"1.15.1. 1" 

FT /product="superoxide dismutase” 

FT /protein id-"CAA45406. 1" 

FT /translation-" MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSG 

FT HAELASKPGEELVANLDSVPEEIRG AVRNHGGGHANHTLFWSSLSPNGGG AP TGNLKAA 

FT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL 

FT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" 

ХХ 

59 Sequence 756 BP; 247 A; 136 C; 1516; 222 T; 0 other; 
cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60 
gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120 
ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180 
gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240 
ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300 
cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360 
ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420 
atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480 
gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540 
tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600 
gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660 
ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta T20 
tcgaaaggct cacttaggtg ggtcttttta tttcta T56 


0 2.3 EBL 00000 (000 X401)O 0000000000 2 10 
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Basic BLAST | Advanced BLAST | 


Basic BLAST 


Usage: Choose the the suitable BLAST program and database for your query 
sequence. Paste your sequence in one of the supported formats into the sequence 
field below and press the "Run BLAST" button. Don't forget your e-mail address, so 
that we can send you the results in case of traffic jam... 

Make sure that the format button (next to the sequence field) shows the correct 
format ， 

See also our BLAST database description. 


Please select the 
program: [blastp -| program 


Please select the database: 


C рма databases 
[Please select “| 





6 Protein databases [Please select “| 
2 : 

М Gapped alignment blosum62 B Select matrix 

on/off 


М BLAST filter on/off [Plain Text x] Select format 


M Graphic output on/off | Query title (option) 


Paste your sequence - 
һеге: 

(or ID or accession 

number) Я 


required for tblast[nx] | E-mail address Г 


programs -> HTML 
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“ bottom] БАЗТАОППООООООООООООООО 
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GCACATGCTGGACAGAGGOACAATGGCT TCCATGCAAT TGGGCAGATGIGI GAGGCAGCTGIGGT CACC 


EMBL 
European Bioinformatics Institute 





Fasta3 зетови | 











YOUR EMAIL SEARCH TITLE RESULTS DNA STRAND MATRIX 
| [Sequence [interactive -| [none :| [6LosuM50 -] 
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CCAGATCCTGGACAGAGGACAATGGCTTCCATGCAATTGGGCAGATGTGTGAGGCACCTG ^ 
TGGTGACC 


ПППП festa3[] [] [] E.M] 000 bottont STRAND 00000 f asta3] 
000000000 


FASTA (3.39 Мау 2001) function [optimized, +5/-4 matrix (5:-4)] ktup: 6 
join: 45, орі: 30, gap-pen: -16/ -4, width: 16 

Scan time: 54.270 

The best scores are: opt bits Е(145773) 
EM_HUM: AF015262 AF015262 Homo sapiens Down Syn (79920) [+] 125 38 D. 83 
ЕМ HUM:HS229043 AJ229043 Homo sapiens 959 kb с (48446) [+] 125 36 D. 96 


»»EM HUM:AF015262 AF015262 Homo sapiens Down Syndrome cr (19920 nt) 
rev-comp initn: 74 initl: 74 opt: 125 Z-score: 120.7 bits: 36.3 EQ: 0.83 
67. 164% identity (68.182% ungapped) in 67 nt overlap (68-2:209228-209293) 


6ü 50 40 
ENBOS- GGTCACCACAGGTGCCTCACACATCTGCCC 
ЕМ HUM GCACCAACCGTGTTCCAGGCTCTCTCAGGTGG TCTCCATAACTACCCCACTCACCTGCCC 
208200 209210 209220 209230 209240 209250 


30 20 10 


....... 
....... 
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H fasta3 ПППППППП 


FASTX (3.39 May 2001) function [optimized, BL50 matrix (15:-5:-1)] ktup: 2 
join: 36, opt: 30, gap-pen: -12/ -2 shift: -20, width: 16 
Scan time: 2.150 
The best scores are: opt bits Е(96664) 
SW:BRC1 HUMAN P38398 BREAST CANCER TYPE 1 SUSC (1863) [f] 149 55 2. бе-07 
SW:BRC1_CANFA (495153 BREAST CANCER TYPE 1 SUSC (1878) [f] 143 53  1e-06 
SW:NODL, RHIME P28266 NODULATION PROTEIN L (EC ( 183) [f] 70 29 2.2 











>>SW:BRC1 HUMAN P38398 BREAST CANCER ТҮРЕ 1 SUSCEPTIBILI (1863 аа) 
initn: 148 initl: 148 opt: 149 Z-score: 253.3 bits: 55.4 EQ: 2. бе-07 
Smith-Waterman score: 149; 95.238% identity (95.238% ungapped) in 21 aa overlap 
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GACTGTGGCTGCTGGCGTTGAGGGAAACCTGCCTGTACGTGAGGCCCTAAAAAGCCA 
GAGACCTCACTCCCGGGGAGCCAGCATGTCCACTGCGGTCCTGGAAAACCCAGGCTT 
GGGCAGGAAACTCTCTGACTTTGGACAGGAAACAAGCTATATTGAAGACAACTGCAA 
TCAAAATGGTGCCATATCACTGATCTTCTCACTCAAAGAAGAAGTTGGTGCATTGGC 
CAAAGTATTGCGCTTATTTGAGGAGAATGATGTAAACCTGACCCACATTGAATCTAG 
ACCTTCTCGTTTAAAGAAAGATGAGTATGAATTTTTCACCCATTTGGATAAACGTAG 
CCTGCCTGCTCTGACAAACATCATCAAGATCTTGAGGCATGACATTGGTGCCACTGT 
CCATGAGCTTTCACGAGATAA 
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Но mispriming library specified 
Using 1-Басей sequence positions 


OLIGO start len tm gc’ any 3' зей 
LEFT PRIMER 112 20 59.98 55.00 3.00 3.00 CTT(GGCAGGAAACTCTCT(G- 
RIGHT PRIMER 364 20 59.99 50.00 3.00 3.00 GATGTTTGTCAGAGCAGGCAÀ 


SEQUENCE SIZE: 420 
INCLUDED REGION SIZE: 420 


PRODUCT SIZE: 253, РАТЕ ANY СОМРГ: 5.00, PATE 3' СОМРГ: 2.00 


1 GACTGTGGCTGCTGGCGTTGAGGGAAACCTOCCTOT ACGTGAGGCC CTAAAAAGCCAGAG 


6 


-- 


ACOTCACTOCOBGGGBGAGCCABCATGTCO ACTGC GGT COTBGGRAAAS CCABGCTTGOGCAG 
95523259 


121 GAAACTCTCTGACTTT(GGAC A565 ACA A(SCTATATTGAA(TACAACTGOCAATCAALAAT(G 
POPP RPDF 


18 


-- 


TGCCATATCACTGATCTTCTCACTCAAAGAADAAGT TGGTGCATTGGCC AAAGTATT GC 


24 


— 


CTTATTTGAGGCACAATCATCTAAACCTGCACCCACATTGAATCTAGACCTTCTCGTTT ВАА 


301 GàaAGATGAGTATGOAATTTTTCACCCATTTGGATAAACOTAGCCTGCCTGCTCTGAC ВАА 
4444444444444444 


26 


— 


CATCATCAAGAT CTT GAGGS АТОАСАТТ СТЕ CAC TOTCCATGAGCTT TCACGAGATAA 
«444 


KEYS (in order of precedence): 
>>>» left primer 
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The Phred/Phrap/Consed System Home Page 


Documentation is currently available for the following: 


e phred--the base-caller 

e phrap--the assembler 

e consed and autofinish --А Unix-based Graphical Editor and Automated Finishing Pi 
Phrap Sequence Assemblies 

e general documentation on swat, crossmatch, phrap, and phrapview 

e swat 


How to Get Phred/Phrap/Consed 





The University of Washington Office of Technology Transfer has a Direct Licensing si- 
expediting commercial licensing. 


lU 41100000000 Phred Phrap-Consed [] [| 
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第 四 节 基因 组 分 析 列 举 : 水 稻 基 因 组 分 析 


本 节 将 结合 我 们 近年 来 的 一 些 研究 结果 ,重点 对 第 一 个 被 基因 组 测序 的 作物 
一 一 水 稻 的 基因 组 研究 和 分 析 结 果 进 行 介绍 。 

水 稻 是 第 一 个 被 全 基因 组 测序 的 作物 。 亚 洲 栽 培 稻 ( Oryza sativa) 共有 2 
个 亚 种 籼稻 和 粳稻 ) ,其 中 一 个 粳稻 品种 “日 本 晴 ” 分 别 通 过 全 基因 组 鸟 枪法 Goff 
et al, 2002 ) 和 逐步 克隆 方法 (Sasaki et al, 2002; Feng et al, 2002; The Rice 
Chromosome 10 Sequencing Consortium, 2003; The Rice Genome 
Sequencing Project, 2005) 测 序 ， 另 一 个 籼稻 品种 "9311" 通 过 全 基因 组 鸟 枪法 测 
序 (Yu et al, 2002; Yu et al, 2005)。 除 了 核 基 因 组 外 ,水稻 的 叶绿体 基因 组 序列 
早 在 15 年 前 就 已 测序 完成 (Hiratsuka et al, 1989) , 同时 ,其 线粒体 基因 组 最 近 
也 被 测序 完成 ( Моби et al. 2002 » 

在 获得 基因 组 序列 后 ,一 项 艰巨 的 研究 任务 是 如 何 从 巨 量 的 水 稻 基 因 组 序列 
中 挖掘 出 潜藏 的 遗传 事件 、 进 化 机 制 等 重要 生物 信息 。 为 此 本 文 结合 我 们 自身 的 


一 些 研究 工作 ,重点 介绍 了 近年 来 在 水 稻 基 因 组 序列 分 析 中 获得 的 几 项 最 新 的 研 


did 


ая. 


1 现代 的 二 倍 体 ， 古老 的 多 倍 体 

2004 年 水 稻 基因 组 研究 的 一 个 重要 进展 ， 是 获得 清晰 的 证 据 表 明 水 稻 基 因 
组 鲁 发 生 过 全 基因 组 倍增 。Paterson 等 ( 2004)、Guyot 等 (2004) 和 我 们 (Fan et 
al, 2004;Zhang et al, 2005a) 的 研究 结果 也 一 致 表明 ,在 禾 本 科 作 物 分 化 前 发 生 


过 一 次 全 基因 组 倍增 ( whole-genome duplication » FA 2002 年 ,根据 最 初 的 
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水 稻 基 因 组 草图 序列 ,Goff = (Goff et al, 2002 ) 利用 同 义 替 换 率 分 布 方法 
( K-based age distribution ) 提 出 水 稻 基 因 组 可 能 发 生 过 一 次 全 基因 组 倍增 。 而 
在 此 之 前 ,利用 分 子 标 记 、DNA 重复 元 件 等 方法 对 水 稻 部 分 染色 体 区 段 的 研究 ， 
也 提出 水 稻 基 因 组 的 一 些 染 色 体 间 可 能 发 生 过 片段 倍增 ( block or segmental 
duplication k 2003 年 两 篇 重要 文章 相继 发 表 ， 对 水 稻 基因 组 起 源 和 倍增 事件 做 
出 了 初步 分 析 和 有 益 探索 (Paterson et al, 2003; Vandepoele et al, 2003)。 随 着 
水 稻 基因 组 序列 数据 的 增加 ， 特别 是 美国 基因 组 研究 院 ( TIGR) 利用 逐步 克隆 
(clone by clone) 测 序 的 数据 首次 拼 成 12 条 水 稻 染 色 体 序列 ， 利 用 TIGR 的 数据 
和 基因 相似 性 矩阵 方法 ( GHM, gene homology matrix), 检测 到 大 量 染色 体 间 
的 倍增 片段 ,这些 倍增 片段 几乎 覆盖 了 水 稻 全 基因 组 ( 图 1, 图 中 包括 水 稻 第 2 
号 染色 体 与 第 4 和 6 号 染色 体 、 第 3 号 染色 体 与 第 7、10 和 12 号 染色 体 和 第 1 
与 5 号 染色 体 间 的 间 的 倍增 片段 。 另 外 第 8 与 9 号 染色 体 、 第 11 与 12 号 染色 
体 间 的 倍增 片段 未 列 出 > 这 是 全 基因 组 倍增 的 有 力 证据 。 根 据 倍 增 片段 上 同 源 
基因 的 分 子 进化 分 析 , 全 基因 组 倍增 大 致 发 生 在 7000 万 年 前 ， 在 禾 本 科 作 物 分 
化 前 (Paterson et al, 2004)。 我 们 在 2004 年 初 利用 TIGR 的 第 一 版 水 稻 基 因 组 
数据 ( osa1, Version 1 ) 和 GHM 方法 就 已 发 现 了 这 一 水 稻 基 因 组 倍增 的 证 据 并 
投稿 (论文 摘要 已 递交 上 海 -合肥 举行 的 系统 与 进化 研讨 会 (Fan et al, 2004). 18 
就 在 6 月 低 -7 AM , Paterson 等 (2004) 和 Guyot 等 (2004) 的 文章 相继 发 表 。 后 
我 们 利用 TIGR 更 新 的 数据 ( osa1, Version 2) 对 水 稻 染 色 体 间 倍 增 片 段 进 行 了 
更 新 ， 并 以 此 为 基础 ， 利 用 同 义 蔡 换 率 分 布 方法 检测 到 另 一 次 更 古老 的 ( 单 双 子 
叶 植物 分 化 前 ) 基因 组 倍增 事件 (Zhang et al, 2005)。 该 研究 的 最 新 进展 是 中 科 


院 北京 基因 组 研究 所 ( 华 大 ) 刚 刚 发 表 的 水 稻 基 因 组 精细 图 分 析 结 果 也 同样 证 实 
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了 水 稻 基 因 组 的 倍增 (Yu et al, 2005) , 同时 ， 另 外 一 个 独立 的 课题 组 最 近 也 获得 


了 同样 的 结论 (Wang et al, 2005)。 


Chr. 7, Mb 
Chr. 5, Mb 


Chr. 12, Mb 


Chr. 5, Mb 


Chr. 10, Mb 





Chr. 4, Mb 





Chr. 3, Mb Chr.2, Mb 
5| B Zhang 等 2005) 


1 部 分 水 稻 基因 组 倍增 片段 


全 基因 组 倍增 或 整 倍 体 化 过 程 被 认为 是 植物 尤其 是 禾 本 科 作 物 物种 形成 和 
进化 过 程 中 非常 普 逼 和 重要 的 事件 ，50%-70% 的 开花 植物 在 进化 过 程 中 均 经 历 
了 一 次 或 多 次 染色 体 加 倍 过 程 (Wendel et al, 2000)。 基 因 组 加 倍 后 , 再 经 历 所 谓 
的 二 倍 体 化 过 程 diploidization ) , 进化 成 当代 的 二 倍 体 物种 。 大 量 的 复制 基因 
将 在 二 倍 体 化 过 程 中 丢失 。 整 倍 体 化 过 程 一 般 可 通过 同 源 加 倍 ( autopolyploid ) 


3 
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和 异 源 加 倍 ( allopolyploid ) 两 种 方式 发 生 。 已 测序 完成 的 模式 植物 拟 南 芥 ， 经 
全 基因 组 序列 分 析 发 现 ， 至少 发 生 过 3 次 全 基因 组 自身 复制 (Bowers et al, 
2003), 玉米 被 认为 在 其 与 高 梁 分 化 后 发 生 一 次 异 源 加 倍 过 程 ， 即 起 源 于 异 源 四 
倍 体 ( allotetrapolyploid ) 利用 同 义 替 换 率 分 布 方 法 检测 和 最 新 序列 数据 库 数据 ， 


Blanc 和 Wolfe(2004) 在 很 多 重要 作物 中 均 发 现 了 全 基因 组 倍增 的 证 据 。 


水 稻 全 基因 组 倍增 片段 是 迄今 为 止 发 现 的 在 动 植物 基因 中 最 为 清晰 、 完 整 的 
基因 组 倍增 的 遗迹 。 拟 南 芥 基 因 组 在 更 近代 的 时 候 也 发 生 过 全 基因 组 倍增 ,但 它 
的 倍增 片段 都 比较 短 且 凌乱 (Bowers et al, 2003; Simillion et al, 2002)。 水 稻 之 


所 以 保存 得 这 么 完整 可 能 与 水 稻 基 因 组 相对 比较 稳定 有 关 (Llic et al, 2003)。 


2 ”最 小 的 核 基因 组 : 基因 组 在 扩 增 还 是 在 缩小 ? 

植物 界 基 因 组 中 ОМА 含量 差异 很 大 ,它们 的 差异 性 与 生物 的 复杂 性 程度 并 
不 完全 相关 ,这 种 现象 称 为 C 值 悖 理 。 如 大 麦 Hordeumvulgare y KARIA 
芥 的 生物 复杂 性 比较 相似 ， 但 大 麦 基因 组 分 别 为 水 稻 和 拟 南 芥 基 因 组 的 11 ЕЛ 
35 倍 。 众 多 因素 ( 机 制 ) 决定 了 基因 组 的 膨胀 和 缩小 (Bennetzen et al, 2002), 
早 在 19 世 纪 30 年 代 基因 复制 就 被 认为 是 增长 遗传 物质 的 首要 机 制 (Betran et al, 
2002)。 在 植物 界 中 ,基因 数目 的 增加 通常 归 因 于 基因 复制 、DNA 片断 或 基因 组 
复制 。 基 因 组 膨胀 的 最 主要 因素 为 基因 组 的 倍增 (Wendel et al, 2000; Grover et 
al, 2004)。 而 转 座 因 子 的 扩 增 则 是 另 一 个 推动 基因 组 增加 的 关键 因素 。 在 禾 本 科 
A, 已 报道 在 最 近 的 1 千 万 年 内 大 多 数 基因 组 的 膨胀 由 LTR 逆转 座 因子 的 扩 增 
所 导致 (SanMiguel et al, 1996; Ma et al, 2004)。 很 明显 的 ， 这 一 机 制 只 能 导致 


基因 组 膨胀 (Bennetzen et al, 2000) ,而 基因 组 只 是 这 样 一 味 地 膨胀 进化 吗 ? 并 
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非 如 此 。 后 来 发 现 了 抵制 这 一 膨胀 的 机 制 : 异常 重组 (ilegitimate recombination) 
和 非 同 源 性 重组 (unequal homologous recombination) TARL LTR 逆转 座 序列 
从 而 抵制 基因 组 的 膨胀 (Vicient et al, 1999; Shirasu et al, 2000; Ма et al, 2004), 
最 近 已 发 现 水 稻 和 拟 南 芥 基 因 组 中 的 LTR 逆转 座 序列 的 大 量 丢失 (Ma et al, 
2004; Devos et al, 2002)。 在 最 近 的 8 百 万 年 里 ， 水稻 基因 组 中 至 少 有 190Mb 
的 LTR 逆转 座 序列 被 删除 (Ma et al, 2004)。 利 用 非洲 栽培 稻 进行 的 比较 基因 组 
学 研究 表明 ， 亚 洲 栽培 水 稻 的 籼 粳 稻 基 因 组 大 小 均 增 加 了 2% 和 6%(Ma et al, 
2004)。 但 该 研究 的 结论 仅 是 根据 约 1Mb 长 度 的 基因 组 片段 ( 水 稻 430Mb 基因 
组 的 0.2% ) 得 出 。 根 据 поп ТК 逆转 座 研 究 ，Petrov 和 他 的 同事 得 出 非 平衡 
性 的 少量 删除 和 插入 导致 昆虫 类 的 基因 组 缩小 (Petrov et al, 2002). ЖІП, ДЕЯ 
物 基 因 组 中 是 否 存在 同样 相似 的 机 制作 用 于 转 座 因子 ,或 者 其 它 机 制导 致 非 重 复 
序列 的 丢失 仍然 没有 明确 的 答案 。 
为 了 探索 基因 组 大 小 改变 的 潜在 进化 机 制 ,一 种 较 理想 的 途径 是 比较 基因 组 
间 大 小 差异 很 大 的 相近 物种 。 通 过 比较 果 蝇 ( 165Mb ) 和 其 它 两 个 基因 组 极 大 的 
相近 物种 Laupala crickets ( 1910Mb ) 和 Podisma grasshoppers ( 18150 Mb ), 
жін DNA 的 大 量 丢 失 (Petrov et al, 2002). 最近 ,通过 比较 异 源 多 倍 体 物种 
棉花 ( Gossypium hirsutum ) 不 同 基因 组 序列 片断 ,探索 了 该 物种 基因 组 大 小 变 
化 的 进化 机 制 (Grover et al, 2004)。 
在 有 花 植 物 中 ,全 基因 组 倍增 是 普通 发 生 的 现象 ,并且 被 认为 在 物种 进化 和 
分 化 中 起 着 重要 作用 (Wendel et al, 2000)。 一 旦 染色 体 倍增 过 后 ,古老 多 倍 体 的 
基因 组 进化 速率 加 快 ， 在 “二 倍 化 ”过 程 中 伴随 着 大 量 的 DNA 序列 的 消失 以 及 染 


色 体重 排 现 象 (Sasaki et al，2002)。 水 稻 基因 组 测序 工作 的 完成 (Sasaki et al, 
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2002; The Rice Chromosome 10 Sequencing Consortium, 2003) 为 研究 水 稻 基 
因 组 的 进化 史 提供 了 一 个 前 所 未 有 的 机 会 。 水 稻 基因 组 多 倍 体 的 起 源 已 被 证 实 
(Paterson et al, 2004; Zhang et al, 2005; Paterson et al, 2003)。 多 倍 化 事件 估 
计 发 生 在 70 百 万 年 前 ， 在 禾 本 科 分 化 之 前 (Paterson et al, 2004)。 这 一 结论 是 
基于 许多 非 重 芭 的 倍增 块 几乎 覆盖 了 整个 基因 组 这 一 事实 而 得 出 。 该 研究 结果 为 
研究 水 稻 基 因 和 基因 组 倍增 后 的 二 倍 体 化 的 进化 机 制 提供 了 非常 好 的 素材 。 

当 一 次 复制 事件 发 生 ,两 对 应 的 复制 片断 或 染色 体 在 初始 阶段 通常 应 具有 同 
样 的 大 小 。 但 经 过 长 期 的 进化 ， 其 同 源 的 复制 片断 的 大 小 有 可 能 存在 差异 。 由 基 
因 组 复制 产生 的 复制 块 ( 同 源 复制 块 ) 将 经 历 一 次 "二 倍 体 化 "的 剧烈 进化 过 程 ， 
伴随 着 大 量 的 ОМА 序列 的 丢失 。 同 源 复 制 片断 闻 存 在 的 巨大 长 度 差 异 为 分 析 基 
因 组 膨胀 或 缩小 进化 机 制 提供 了 有 效 的 途径 。 在 我们 的 研究 中 ， 从 水 稻 全 基因 组 
倍增 产生 的 同 源 复制 片断 ( 如 来 自 第 2 ,3 , 6 , 7 和 10 号 染色 体 ), 由 于 它们 存 
在 着 巨大 的 差异 性 而 被 选择 为 研究 对 象 ,用 于 探索 水 稻 经 历 多 倍 化 后 基因 组 大 小 
的 进化 机 制 。 我 们 的 研究 表明 , 在 最 近 70 百 万 年 里 ,水 稻 染 色 体 以 不 均衡 的 模 
式 ( 即 染色 体 长 度 存 在 膨胀 、 平 衡 和 减 小 3 种 情况 ) 进 化 着 ， 影 响 复制 片断 大 小 的 
差异 主要 由 非 重 复 序 列 的 DNA 丢失 引起 的 ‚Н LTR 因子 的 扩 增 也 起 着 重要 作用 


(Guo et al, 2006) ( 2» 
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2 水 稻 基 因 组 染色 体 长 度 变化 的 三 种 进化 模式 


3 ” 籼 粳 稻 分 化 时 间 比 原来 估计 的 要 迟 得 多 

水 稻 ( Oryza sativa L. ) 属于 禾 本 科 ( Gramineae 或 Poaceae ), 也 是 3 
大 谷类 植物 之 一 ， 即 水 稻 ,小 麦 Triticum aestivum ) 和 玉米 ( Zea mays) 为 
人 类 提供 了 主要 食 源 。 大 约 在 77 百 万 年 前 禾 本 科 从 同一 祖先 分 化 而 来 ， 其 两 个 
亚 科 Erhartoideae ( 水 稻 ) 和 Panicoideae ( 玉米 和 高 梁 ) AAE 50 百 万 年 分 
F (Gaut et al 2002)。 水 稻 化 石 的 研究 可 追溯 到 约 40 百 万 年 前 。 22 个 水 稻 物 种 
中 已 发 现 9 个 物种 为 2 倍 体 类 型 ( 2n = 24 ) 以 及 由 不 同 重组 形成 的 异 源 4 倍 体 
(20-48) Z, O.rufigogon 是 栽培 稻 ( Oryza sativa L. , АА 基因 组 ) 的 野生 
祖先 ,后 被 驯化 为 O.sativa , 其 驯化 时 间 可 能 起 源 于 9 千年 前 。 栽 培 稻 有 2 个 主 
要 亚 种 籼稻 和 粳稻 ， 基 于 来 自 2 个 亚 种 的 29kb 的 同 源 片断 ，Bennetzen(2000) 
认为 它们 约 在 1 百 万 年 前 分 开 ,但 是 他 未 给 出 这 一 时 间 估 计 的 详细 信息 。 这 一 分 


化 时 间 估 计 后 来 在 水 稻 基 因 组 的 研究 中 被 广泛 引用 (Song et al, 2003; Han et al, 
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2003). 

水 稻 基 因 组 测序 的 工作 已 基本 完成 。 栽 培 稻 粳 稻 日 本 上 晴 通过 全 基因 组 鸟 枪法 
(Goff et al，2002) 和 利用 遗传 图 和 物理 图 的 逐步 克隆 方法 被 测定 (Sasaki et al 
2002; Feng et al, 2002; The Rice Chromosome 10 Sequencing Consortium, 
2003). AISA Al 9311833 ЕН Se AMM ЈЕ (Yu et al, 2002). RIK 
基因 组 ， 水 稻 叶 绿 体 基 因 组 早 在 15 年 前 就 被 测序 完成 (Hiratsuka et al, 1989). 
同样 地 ， 玉 米 和 人 小麦 地 叶绿体 测序 工作 最 近 也 已 完成 。 

细胞 核 、 叶 绿 体 和 线粒体 间 ОМА 序列 的 插入 很 早 就 被 发 现 (Notsu et al, 
2002)。 粳 稻 第 10 号 染色 体 上 的 2 个 长 的 叶绿体 基因 组 序列 插入 已 被 检测 到 (The 
Rice Chromosome 10 Sequencing Consortium, 2003)。 同 时 ， 籼稻 基因 组 序列 


中 也 同样 发 现 大 量 的 叶绿体 序列 的 插入 (Shahmuradov et al, 2003)。 


120. 
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3 水稻 核 基 因 组 中 叶绿体 DNA 的 插入 情况 (A) 和 插入 时 间 估 计 (B ) 


植物 细胞 核 和 细胞 器 基因 的 同 义 替 换 率 ( os ) 通 常 被 用 于 进化 事件 的 时 间 估 
计 (Wolfe et al，1989)。 考 虑 到 叶绿体 的 一 些 有 利 因 素 ， 如 母系 遗传 、 很 少 或 没 
有 重组 等 (Sall et al, 2003) , 叶绿体 DNA 已 被 广泛 地 应 用 于 植物 分 化 时 间 的 估计 
(Wolfe et al, 1989; Sall et al, 2003; баш et al, 2002). ANY ， 核 基因 序列 也 被 用 
于 分 化 时 间 的 研究 中 ， 如 Bennetzen 等 人 的 研究 (Bennetzen et al, 2000)。 非 同 
УАЗ 氨基 酸 改变 ,qn ) 与 同 义 蔡 换 率 的 ( 氨基 酸 不 改变 ,os ) 的 比值 ( ал/05 ) 


也 经 常 被 用 于 分 化 分 析 。dn/qs 的 比值 为 1 表示 所 研究 的 基因 在 中 性 选 瓜 neutral 
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selection ) 下 进化 ,小 于 0. 25 意味 着 纯化 选择 ( purifying selection ) 下 进化 , 
当 比 值 大 于 1 时 则 被 认为 进行 正 向 选择 ( positive selection 让 的 进化 (Hurst et al, 
2002; Swanson et al 2003)。 

我 们 利用 大 片断 叶绿体 DNA 的 插入 ( 图 3, 图 中 为 水 稻 核 基因 组 序列 一 一 12 
条 染色 体 依 次 拼接 在 一 起 一 一 与 叶绿体 基因 组 联 配 结果 。 蓝 线 表 示 叶 绿 体 片断 顺 
式 插入 核 基 因 组 , 绿 线 表 示 叶 绿 体 片 断 反 式 插入 核 基因 组 ) 来 估计 水 稻 2 个 亚 种 
籼稻 和 粳稻 的 分 化 时 间 。 通 过 PCR 扩 增 和 籼稻 基因 组 层次 上 对 叶绿体 大 片断 的 
搜索 ,确立 了 籼稻 - 粳稻 分 化 之 前 叶绿体 的 最 近 一 次 插入 并 根据 同 义 蔡 换 率 推断 
出 2 个 亚 种 分 化 时 间 在 6-22 万 年 之 间 (Guo et al, 2008a)。 该 结果 与 最 新 一 些 研 
究 结果 基本 一 致 ， 如 利用 叶绿体 和 线粒体 基因 组 序列 的 研究 结果 ( Tian et al. 
2004; Tian et al. 2006 ) 和 核 基 因 做 出 的 推断 (Ma et al, 2004; Zhu and Ge, 2005; 


Vitter et al, 2004; Huang et al, 2005)。 


4 ”水 稻 高 GC 含量 基因 的 进化 机 制 

禾 本 科 基 因 治 转录 方向 上 GC ( SRK + Неш) 组 成 上 存在 负 梯 度 现象 最 
近 被 发 现 ， 而 在 双子 叶 植物 基因 却 无 此 现象 (Yu et al, 2002; Wong et al, 2002)。 
这 是 一 个 明显 和 有 趣 的 现象 。 但 其 产生 的 机 制 尚 无 合理 的 解释 。GC 含量 作为 基 
因 组 的 一 个 重要 识别 标志 ,已 被 用 于 基因 组 的 基本 组 成 的 分 析 ,编码 序列 的 进化 
以 及 密码 子 使 用 偏好 性 上 (Bernardi et al, 2000)。 例 如 ,CpG & (GC HER ) 
被 用 于 真 核 生物 的 基因 一 个 路 标 信息 (Ashikawa et al，2001)。 物 种 间 基 因 平均 
GC 会 量 的 变化 幅度 较 大 ， 甚至 在 同一 类 物种 ( 如 细菌 ) 中 也 是 如 此 。 物 种 中 的 


这 种 GC 含量 差异 产生 的 原因 尚 不 清楚 。 
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禾 本 科 内 包括 了 将 近 10000 物种 ， 可 被 分 成 700 个 属 (Gaut et al, 2002), 
表现 为 独立 的 遗传 体系 (Bennetzen et al, 1993)。 最 近 的 比较 基因 组 学 研究 表明 ， 
所 有 禾 本 科 植 物 都 追溯 到 一 个 共同 的 “ 禾 本 等 位 基因 ”( Grass alleles ) 群体 
(Freeling et al, 2001)。 有 报道 指出 ， 禾 本 科 有 一 次 GC 合 量 提高 过 程 并 且 在 玉 
米 和 水 稻 中 可 分 成 两 类 基因 ( 高 GC 和 低 GC ) (Carels et al, 2000)。 通 过 考察 
KA 4 SRA (ЖЖ, 玉米 ,小麦 和 大 麦 ) 的 25 个 基因 家 族 ,每 个 家 族 
成 员 的 基因 GC 含量 存在 着 巨大 差异 (Zhang et al, 2001)。 同 时 ， 最 近 也 有 报道 
指出 , 微 卫星 分 布 的 一 个 新 特点 也 治 着 基因 转录 方向 呈现 梯度 变化 。 对 于 水 稻 基 
, 通常 在 基因 5 , 端 能 探测 到 富 合 GC 的 微 卫 星 ， 如 (CCG)n 等 (Fujimori et al, 
2003)。 通 过 水 稻 基因 组 内 CpG SHAT, 同样 也 大 量 出 现在 表达 基因 的 5 м 
(Ashikawa et al, 2001)。 

基于 水 稻 28000 个 全 长 cDNA ( 来 源 于 实验 ) 和 基因 组 序列 以 及 其 它 物种 
的 类 似 数据 我 们 详细 研究 了 禾 本 科 以 及 其 它 物 种 的 基因 GC 含量 和 梯度 (Guo et 
al, 2007)。 根 据 水 稻 转 录 组 GC 含量 的 分 布 ,我 们 得 出 了 水 稻 GC 梯度 变化 模式 
和 明显 的 两 组 基因 类 型 ( 图 4 > 我 们 发 现 水 稻 编码 基因 由 于 受到 选择 效应 的 影 
响 ， 密 码 子 使 用 上 存在 偏向 GC 的 倾向 ,导致 了 基因 GC 含量 的 增加 。 至 少 部 分 


水 稻 基 因 受 到 这 种 机 制 的 影响 (Guo et al, 2007)。 
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4 水 稻 和 拟 南 芥 基 因 组 基因 的 GC 含量 分 布 


5 水 稻 小 RNA 可 能 是 驯化 和 育种 选择 的 靶 基 因 

内 源 性 非 蛋白 质 编码 的 小 RNA(12 - 24nt) 在 植物 基因 转录 与 后 转录 水 平 中 
起 着 重要 的 调节 作用 。 根 据 小 RNA 的 合成 机 制 和 功能 的 不 同 ， 可 以 将 其 分 成 两 
大 


Ж 


, 一 类 是 microRNA(miRNA) ,一 类 是 小 干扰 RNA(siRNA)。miRNA 是 由 具 
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有 发 夹 结 构 的 的 初级 转录 本 经 过 核酸 内 切 酶 DCL1 加 工 后 生成 ， 而 小 干扰 ВМА 
则 是 通过 核酸 内 切 酶 DCL2, DCL3 和 DCL4 对 双 链 RNA 前 体 进 行 加 工 形成 的 
(Vazquez 2006)。 目 前 在 拟 南 芥 、 水 稻 等 植物 中 已 经 鉴定 出 了 一 些小 干扰 RNA 
位 点 ,包括 ta-siRNAs (trans acting siRNAs) , nat-siRNAs (natural antisense 
transcript-derived siRNAs) 和 ra-siRNAs(repeat-associated siRNAs) , Ж ЭЖҰ 
ЖЕ miRNA-like 位 点 ( miRNA-like long hairpin ) 和 nat-miRNA ( natural 
antisense miRNA)。 我 们 鉴定 发 现 了 几 十 个 新 miRNA 和 一 些 新 类 型 siRNA Zhu 
et al. 2008 )。 在 水 稻 中 至 今 已 鉴定 出 344 ^ mRNA (miRBase, 
http://microrna.sanger.ac.uk/sequences/,Release 12.0), 一 个 ta-siRNA 家 族 


( TAS3 ) ,两 个 长 革 环 结构 的 miRNA-like 位 点 和 一 个 mirtron (Zhu et al. 2008), 
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No. of sequence reads (log scale) 





No. of sequence reads (log scale) 
Frequency(?9) 





Length of small RNAs (rt) 





% 


B| B Zhu = ( 2008) 


5 两 个 长 基 环 结构 的 miRNA-like 位 点 


遗传 学 方面 近 几 年 的 一 个 重要 的 研究 进展 是 在 动 植物 基因 组 中 发 现 了 大 量 
小 ВМА 等 非 蛋白 质 编码 基因 ， 这 些小 基因 ( 一 般 100-200bp ) 在 生理 生化 等 代 
谢 过 程 中 起 到 重要 作用 。 由 此 产生 一 个 有 符 回 答 的 问题 :这 些 基因 位 点 在 我 们 人 
类 进行 作物 驯化 和 育种 过 程 中 是 否 同样 受到 选择 ? 我 们 目前 在 研究 作物 骨干 亲 


本 遗传 成 因 中 是 否 和 如 何 考虑 这 些 基因 对 骨干 亲本 形成 的 影响 ? 目前 发 现 的 人 
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工 选择 ( 育种 ) 的 基因 位 点 主要 编码 转录 调节 因子 和 其 他 蛋白 质 编码 基因 ,我们 
的 研究 发 现 非 蛋 白质 编码 基因 在 人 工 驯化 过 程 中 同样 受到 人 工 选择 效应 的 影响 。 
我 们 利用 水 稻 为 模式 作物 ， 发现 小 RNA 之 一 ,microRNA 基因 MIR156b/c BA 
位 点 可 能 受到 强烈 的 自然 和 人 工 选 择 效应 的 影响 ,说 明 人 工 选择 的 对 象 除了 转录 


因子 及 其 下 游 基 因 外 ,还 可 能 针对 转录 因子 调控 上 游 ЕК Wang et al, 2007 b 
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ЗІН Wang 等 (2007) 


图 6 水 稻 miR156 家 族 在 基因 组 上 的 分 布 和 系统 进化 关系 


通过 水 稻 miRNA 及 其 靶 基 因 结 合 位 点 序列 变异 的 调查 和 得 系 同 源 基 因 
( Paralogs ) 分 析 ,发 现 水 稻 miRNA 基因 在 不 断 地 捕获 新 的 结合 位 点 ( ЗЕ ЖГ )， 
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同时 也 不 断 丢失 对 靶 基 因 的 调控 功能 ( Guo et al, 20086 ) 这 种 动态 的 进化 过 程 
主要 通过 miRNA 序列 突变 来 实现 ， 同 时 插入 和 删除 也 发 挥 一 定 作 用 。 图 7 展示 
Т ЯЯ miR397 车 基因 在 全 基因 组 前 后 的 突变 进化 情况 ,有 些 靶 基因 位 点 由 于 序 


列 突变 而 脱离 了 miR397 的 绑 定 和 调控 。 


99 0512515680 
А 100 0512915920 
33 0501963180 
97 0507401110 
0501963190 

18 0501963200 * 
0511916250 
0511642200 
0511642220 
0501661160 
100 0503518540 
0511947390 
10 0501927700 
100 0502551 440 
0501944330 
100 0505538390 
0501962600 
ББ 0501962480 

0501662490 * 

5 = 050543841 0 * 

100 L 9505438420 * 
0503516810 

415960020 
100 АР132121(РО 


100 
% 


一 一 
03) 05 ад 015 010 005 000 


B 
miR397a  5'GUAGUUGCGACGUGAGUUACU 3' 
111111111111111111:11 
0305938420 UCAAC САСПСААССА(1)% 
0301962480 UCAAC CIICUCAACGA (3) 
0305938390 UCAAC CGCUCAACGA (4) 
0301962600 ПСААС СОСПСААССА(5) 


БІН Guo = ( 20086 ) 


т 水 稻 miR397 WEAH (А) 及 其 结合 位 点 的 序列 突变 情况 (В) 
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ta-siRNA (trans acting siRNAs) 是 植物 中 发 现 的 一 类 siRNA (745), 其 
在 miR390 等 的 辅助 下 ,调控 生长 素 相 关 基 因 ARF(auxin response factor) , 在 
植物 生长 发 育 过 程 中 发 挥 重要 调控 功能 。 目 前 已 在 拟 南 芥 中 发 现 四 个 亚 家 族 
( 7457-4) ,其 中 TAS3 在 植物 界 是 保守 的 。 通 过 保守 序列 片段 ,克隆 测序 和 生 
物 信息 学 方法 发 现 了 51 个 来 自 禾 本 科 的 74S3 基 因 ( Shen et al , 2009) 通过 
序列 比较 等 , 发现 7453 基因 通过 基因 组 和 单 基因 倍增 , 在 禾 本 科 基 因 组 中 至 少 
有 2 个 拷贝 ,多 的 可 达到 近 10 个 。 水稻 基 因 组 倍增 而 来 的 AS3 基因 在 基因 组 保 


持 了 其 共 线 性 关系 ;同时 TAS3 在 不 同 禾 本 科 基 因 组 上 也 存在 明显 的 基因 组 共 线 


152 

性 (图 8) 
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ЯН Shen 5% (2009) 


图 8 ЖЖ ta-siRNA3 ( TAS3 ) 基因 倍增 及 其 与 高 梁 同 源 基 因 的 比较 基因 组 学 分 析 





为 了 调查 模式 作物 一 水 稻 中 MRNA 等 小 RNA 是 否 经 受 人 工 选择 即 驯化 的 
影响 ,我们 对 水 稻 MIRNA 等 进行 了 大 规模 的 群体 调查 。 对 40 个 miRNA 家 族 的 
97 个 成 员 位 点 进行 了 重 测序 ， 调 查 群 体 包 括 33 个 水 稻 籼 粳 亚 种 。 结 果 表 明 , 与 
拟 南 芥 的 群体 调查 结果 一 致 TE MRNA 成 熟 位 点 其 核 苷 酸 多 态 性 明显 低 于 两 端 
ЕУ, RT miRNA 通过 序列 互补 结合 靶 基 因 功 能 限制 的 存在 。 同 时 ， 对 于 保 
守 的 MIRNA 家 族 其 整体 的 DNA 多 态 性 相 较 水 稻 特 异 的 MRNA 来 说 要 低 一 倍 ， 
由 于 保守 mRNA 一 般 参 与 基础 的 代谢 网 络 的 调控 ,因而 有 可 能 遭受 更 强 的 净化 
选择 而 保持 序列 的 保守 性 (Wang et al. 2010)。 另 外 ， 我 们 还 对 Tajima DD 检验 显 
AY miRNA 位 点 进行 了 进一步 的 正 向 选择 信号 的 调查 。 对 相应 的 miRNA 位 点 
在 更 大 栽培 群体 ( 55 个 品种 ) 和 普通 野生 稻 群 体 O. rufipogon ; 15 个 材料 ) 
进行 重 测序 用 于 中 性 检验 等 分 析 ,结合 DD 检验 和 HKA 检验 的 结果 , 我 们 找到 了 
ЛА miRNA 位 点 在 驯化 过 程 中 可 能 经 历 了 正 向 选择 作用 。 以 miR390 7, 其 
调控 基因 为 另 一 类 小 ВМА ( 7453# 8), 中 性 检验 的 信号 表明 miR390 可 能 
于 选择 作用 的 影响 而 维持 了 其 特异 的 调控 作用 ,是 水 稻 驯 化 和 育种 选择 的 直接 靶 
基因 (WR) 
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ЗІН Wang == (2010) 
图 9 水 稻 小 RNA 基 因 进 化 选择 检测 结果 。 图 中 包括 94 个 位 点 中 性 测验 D 测 验 结果 的 分 布 。 
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га 


ПП 


сассо>>соосо>>свсввоср» 











А 
C CHA 0000 (single substitution) 
T T 
G G 
А-С-Т А 0000 (multiple substitutions) 
А 
А 
със С-А 0000 (coincidental substitutions) 
G 
G 
Т-А Т-А 0000 (parallel substitutions) 
А 
А 
A>C>T А-Т 0000 (convergent substitution) 
С 
С 
G G 
C C2 TC 0000 (back substitution) 
001 002 


П 5.2 ПОООООООООО(Ы & Gaur, 1991) 


000000000] ча9ев П cator(1969[] 0 0 ГМ «000 
00000 





ПП )ППППП 
з, 4 
Rb cq A 05.19 
ПО 9000 NU0O0U000000000000t0O0O00U0000000 
ППППППГ 
21,3495, 
rad ae D 5.21 
АПППППППП 
ПО ККОООООООООООПОООООООООПООПОЩШООО 
0П00000000000000000000000000000 K mra 0 
0П00000000000000000000000(0000)000000 
00(1000)00000000000 
Pon L р десен? рева) 


' 4 
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P, - ce?) [] 5. X] 
ПП Wal П00000000000000000000000000 
ПП 
K= tnt 2p, – руди - 28, ] = 2kt (5.4) 
0П0000000000000000000000000 5.4 000000 
0000 


КигаП 0000 В -0000000 (00 5300000000000 
О 438001 0 580 10000 630 и 0000000 2,0. 13240 А, =0. 14381 
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ПО П 000 
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0000 00 O0 р 
PHYLI P http: //evol uti on. genetics. м 111 1 1 1 0 DD 00100101 110 
ashi nton. edw рћу! і p/softwar ПППППППППППП Felsenstein 
e. ht nh П00000000000000000 
О 
PALP scavott o@i пацег. com 0 000000000000000000 
ftp: // onyx. si . edu/ paup П si nihsoni oni nsti tute[] о 0000 
Appl e Мәсі ntosh[]. UN XQ OO Ú 
Tree of Life http: // phyl ogeny. ari zona. ей П O Uni versity of Ari zona[] 0000 
u/tree/progranáprogramhtnh ПППППП 
MECA http: / / bi oi nfo. wei znam. ac. ППОПОПОООО0 Masatoshi Nei 
il/databases/info/nega.sof 000000000000 
MO_PHY ftp://ftp DUOUO0OOU0U000000000000 
sunnh. i smac. | p/ pub/ nol phy 000 
РАМ. http: // abacus. gene. ucl.ac.u ПП Ui versi ty coll ege London[] ПП 
k/ sof t var e/ panh. ht nh П0000000000000 
PUZZLE ftp://fx. zi. bi ol од е. uni -nù ПП quarter puzzlingg D] (00000 
enchen. de/ pub/ puzzl e 00)00000 
TreeM ew http: //taxonony. zool оду. gla ПП Итуег {у of G аѕодом [J 
‚ ас. UK rod/ tr eevi ew ht nh 
phyl ogeny htt p: // ww ebi . ac. uk/ bi ocat 000000000 (Е8)000000 
/ phyl ogeny. ht nh ППП 
000 ПОПОО 
D000000(00)00000000000000000000000 
ПППП (operational taxononnc units ОЮПЦППППППП to OL 
000000000000 521 
П 52 Ұ«ППППППППОЛИППППППП 
атр 
1 2 3 25 t 
атр 1 - d dis di 
2 а, - Фф» x» а, 
3 d а; - 5 ds 
t di d; d 5: - 
ПППППП ОЛООООООООООООООПОПО (clustering) ПО 
ПППППППППППППП ОЛОООПОО 
ПППППППППОРОАП) 
0П0000000000000000000 (едет а) 0 000 
(ада! onerati ve)[] [] O [] (hi erarchi са) ПП O O (попомег! appi ng ДП ПП 
ШППППППП ПШПШ ПП (average linkage clustering) ПП РОА р 
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(0000000000000000 Џиме ght ed pai r- group net hod usi ng an 
arithnetic average) | ПППППППППППППППППППППППП 
ППП 

ПППППППППП 54000000 ВАППППППППППЦПП 
Jukes-Canto ПО 00000 0000 00 00 000 0 00 00 00000 
ПППППППП а 000 КООО О 

ы; 58 3 

K- а 2221 == 


00000000000 53 
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4400 
5000 


СТАААТАГАС ТТТААССАЛА ACATCAGATT СТСААТСТСА СААСАСАЗЗС ТТАССАСООС TTATTTAGC 
СТАААТАГАС ТТТААССАЛА АСАТСАСАТТ СТСААТСТСА СААСАСАЗЗС ТСАОЗАООС TTATTTAGC 


СТАААГАГАС ТТТААССАДА АСАТСАСАТТ СТСААТСТСА ТААСАСАЗЯС ТСАСААСООС ТТАПТАСС 
СТАААГАГАС ТТТААССАДА АСАТТАСАТТ СТСААТСТАА TAATAGGGGC. ОСАСААССОС ТТАПТАСС 
СТАДАСАТАС ТТТААТСАДА АСАТТАСАТТ СТСААТСТАА CAATAGAGGC ТОСАДАОСТС ТТОСТТАСС 


U240000000 DNAT D 


ООООООООООООООООООООООООООООООООО 
0000000000000000000000000 


а La a 4) = 0.037 


(hu—ch).go = 2 hu,go 


1 
dou oo = 2 (т + donor) =0.135 


1 
du yai = 5 na F dongi) =0.189 


053 0 5.40 500000 0000 00 00 (000 ПОП Jukes- 

















Cantor 0 (0000) 
ud 000 (<) ПОП (90) ПП (ог) 000 (а) 
ПП Chu) - 0. 015 0. 045 0. 143 0. 198 
ПОП (с 1 - 0. 030 0. 126 0. 179 
000 (9 3 2 - 0. 092 0. 179 
ПП (or) 9 8 6 - 0. 179 
ППП (9 12 11 11 11 - 
[] 5.4 
ПОООООООО 
( hu- ch) go or gi 
hu- ch 0. 037 0. 135 0. 189 
go 0. 179 
or 0. 179 
gi 





ПП ес 1 00000 991 0000000000000 
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gi 





О һкс-ОПППППОПППППППППППП 
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000 
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0.060 0019 0.007 


0.092 


О 5.50000000000 


ПП Fitch Mar gol i ash П 
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с OF L3 L ин) 
ТУ === 
ip LJ gog 
ганг oong 
pH" ooo 
p HE Ooo 
Gea по 
свое об 
паше 
нас Вы < 
oong РО + 
ПО <= со 
г б 
г по oo 
НС = < ыы x 
ке жей ен со С ра 
саго ==" 
[E] 一 二 “у га 
Проб Съб 5 
га га га oO 
oS = iie LE 
га га O 
Ha === m 
ЕСТЕН г г 
мн йк} В са тип 
Г- га Баа 
га 
QE ре не с 50 
СО са со n 
OR с == 
га L— pm 
Ed E ES [pL 
га СО 
Б МЕРЕ сін! га 
= LI о 
л За СА r3 
$886 Cia 
= га 
5: EE ае 
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a+x=d, =d, = 5 (0.045 + 0.143 + 0.198) = 0.129 


b+x=d, =d; = 0.030 + 0.126 + 0.179) = 0.112 
a+b=d,, =0.015 


0000000000 4000 ФООМ ООО 45 000 Ш МОООО 


ПППППП4а„ПЧПППППППМПППППЧПППППППППП 
ШПППППППП 
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А В X 
( hu) ( ch) (go, or, gi ) 


П 56 П FitchMrgdiahQG 00000 540000000000 


000000000 АП Х00000000000000000000 
a-9. 0181 b= 0. 001 


0000000000000 МОО о 50000000 0000060 
О 0. 0081 
1... (“2 

ПО Ц =оо О 00000 9] 90000000 5700000c0 印 D 
ОПЕЈЕХОООООООФ ах 00000 (Оо П 000 (9000 
ПО 300000 

cd = do, = (0:045 + 0.030) = 0.037 

с+х= о day = (0.143+0.198 + 0.126 + 0.179) = 0.162 

g+ x= do => (0.092 + 0.179) = 0.136 
ПП 

c=0.032, b-6. 006 
D 0 RJ U U О (ск)/2= 019] ПП О ОО О ЕЈОООЏАЈВЈа 000 
0000 9100091000009] {000000 0000 


с’ =. 032- 0. 008-0. 024 
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E 
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Е =r) 
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ПП ОЛППП НПО (од ШИ (9) 00 0 0 
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ПППП 60000000000 *=900000000000000 


et f-d,, = 40.143 + 0.126 + 0.092) = 0.121 


e+x=d,., = (0.198 + 0.179 + 0.179) = 0.185 
f+x=d, =0.179 


П 
е-0. 063, f -0. 057 


ПОФООП (ен)/2=0. 0600 0 E] 9 0000е°0 е #000000 
0. 063- 0. 019-0. 0441 


Fitch Мегао i аһ 000000000000 580000000000 
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OO 10000 


tc С 


= T (0.198 + 0.179 + 0.179 + 0.179) = 0.184 


1197 0910910000 0. 03А: 100000 
‚900000000 


g=h=0. 092, П 
000000 
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Н 
(hu) (ch) (90) (ог) (gi) 


0590540000000000 FitchMrodiashO 0000 


Fitch] Магоо i asd П0000000000000000000000 
ПОООООООООООООООН ЕС Mrooliash(1967) 00“ 000 
U0“00000000000000000000000000000000 
0000 4,0 0 ал 10 ]00000 (П) Judes-Contor[] ] )Пе 0107000 
0000000 


died 2 
и ш uud | x100 П 5.51 
и(п-1) 
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на СЭ e EN 
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Со L3 Га Га Га 
E EJ 61:52:67 
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N-2 057 
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ћи сћ go Or gi ПППП 
ja ja 1-3 1-4 j5 ri 
hu і-і 0. 000 0.015 0. 045 0.143 0.198 0. 401 
ch | 之 -0.235 000 0.030 0.126 0.179 0. 350 
go | =з -0204 -0.202 0000 0092 0.179 0. 346 
Or | -4 -0171 -0. 171 -0. 203 0.000 0179 0.540 
gi i= -0.181 -0.183 -0.181 -0.246 0.000 0. 735 
hu ch go ПП 1 
ja ja 1-3 1-4 ri 
hu iz 0. 000 0. 015 0. 045 0. 081 0.141 
сһ | 之 - 0. 110 0. 000 0. 030 0. 063 0. 108 
go | =з - 0. 086 - 0. 084 0. 000 0. 046 0.121 
oo 1 і -4 - 0. 085 - 0. 086 -0. 110 0. 000 0. 190 
go ТЕЗ 4 24 
ja 1-2 155 ri 
go iz 0. 000 0. 046 0. 030 0. 076 
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go iz 0. 000 0. 005 
ПП 3 i 之 0. 000 
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и ве Ек 
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ПОПОПООПОО 
ПППППППППППППППП 52300 0000 00000 Ј0 0 (0) 
ПППППППППППЭОПЭЛПППППППППППППППКИІПППП 
ПОЮОООООООООООООО 2021 0 
Ц DS P. (УР, (у) П 5. 12]] 


ППВ m 00000000 
L= Цр П 5. 13] 
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k 000 
Va V2 
Si S2 
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П 513 0000000000 
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0000000000 1000 20 0000000000000 on 
ППППППП Ее зегвее! 19890 ^ nna" 00000000000 j 
ПО0О 10000 A00 20000 Ф 0000 00 000 00 0000 
ПП 4000000 


Lj) = z,PA QU) Рас (у) +z PA Qi) Рес (у) 
+z а (УР V2) + Tr Ра РР (v; ) 
= z 0-7 pi) рл ЇР ze лер A- р) + parc] 
+ Z6 рле t+ Zr D P.M 
=л,(р,+р»„—р\р»)7с 
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K ПП 0 
ПП 4 1 
V3 
1 V2 
5 001 5; ПП 2 S5 ПП 3 
П 514 00000000000000 
ПО00)000000000 545554 ПП ОП 40000 КО 10 


Hun 5. 1410000000000 14000000000 4000 100 
HUU k 


по 00000 
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第 七 章 小 RNA 分 析 


内 源 性 非 蛋 白质 编码 小 ВМА (small non-protein-coding RNA, 12-24nt) 广 泛 存在 

高 等 和 低 等 生物 体内 ， 通 过 对 靶 标 mRNA 直接 切除 或 抑制 其 翻译 在 转录 后 水 平 
对 基因 表达 起 调节 作用 。 已 知 的 小 RNA 主要 分 为 两 大 类 : 一 类 是 微小 RNA (miRNA, 
microRNA)， 一 类 是 小 干扰 RNA (siRNA, small interfering RNA)。 在 植物 和 动物 体 
内 ，miRNA 与 siRNA 的 产生 机 制 和 作用 形式 均 有 所 不 同 ， 这 里 主要 介绍 植物 体内 
的 小 RNA。miRNA 是 由 具有 发 夹 结构 的 初级 转录 本 (pri-miRNA) 经 过 一 系列 加 
过 程 ， 包 括 核酸 内 切 酶 DCL1 加 工 后 生成 ， 而 小 干扰 ВМА 则 是 通过 核酸 内 切 酶 
DCL2, DCL3 和 DCL4 对 具有 较 好 互补 结构 的 长 双 链 RNA 前 体 进行 加 工 形成 的 
(Vazquez 2006)。 目 前 发 现 的 小 干扰 RNA 种 类 很 多 ， 根 据 前 体 序列 类 型 和 形成 机 
制 可 分 为 :  ta-siRNAs (trans acting siRNAs), nat-siRNAs (natural antisense 



























































transcript-derived siRNAs), hc-siRNA (heterochromatic siRNA), 
ra-siRNAs(repeat-associated siRNAs), KŻ HÝ miRNA-like 位 点 CmiRNA-like 





long hairpin) 和 nat-miRNA (natural antisense miRNA)。 植 物 中 发 现 的 小 RNA 已 有 
相当 的 数量 
http://microrna.sanger.ac.uk/sequences/, Release 14.0)、 一 个 ta-siRNA 家 族 (ТА53) 





， 在 水 稻 中 至 今 已 鉴定 出 451 个 miRNA (miRBase, 











和 一 个 mirtron (Zhu et al. 2008). 

由 于 小 RNA 表达 的 时 空 特异 性 , 导致 传统 的 实验 方法 研究 小 RNA 效率 很 低 ， 
成 本 较 高 ， 因 此 借助 计算 方法 研究 小 ВМА 是 一 个 很 好 的 补充 ， 大 大 加 速 了 该 领域 
的 研究 进程 。 对 保守 miRNA 家 族 的 查找 ，miRNA 基因 簇 的 发 现 ， 基 于 miRNA Је 
列 特征 预测 特异 (novel) miRNA， 通 过 高 通 量 测序 技术 (454 和 SOLEXIA) 产生 
的 小 RNA 数据 《往往 超过 几 百 或 上 于 万 条 序列 ) 处 理 ， 以 及 小 RNA ЖИМС ҮЙ 
测 及 其 进化 分 析 ， 这 些 分 析 均 离 不 开 生物 信息 学 的 帮助 。 随 着 研究 的 深入 ， 大 量 
的 计算 方法 ， 相 关 软 件 和 小 RNA 数据 库 不 断 产生 ， 本 章 将 对 相关 内 容 进 行 介绍 















































第 一 节 miRNA 的 主要 特征 及 计算 识别 
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一 .miRNA 的 主要 特征 

在 植物 体内 , miRNA 基 因 首 先 通过 Pol П MERE SE PAE У AI Eg miRNA 
初级 转录 本 (pri-miRNA) (Lee et aL, 2004)， 然 后 在 DCL1 酶 (Dicer-like enzyme) 的 
作用 下 切除 茎 结构 的 尾巴 或 1oop 结 构 由 miRNA 前 体 (pre-miRNA) 得 到 
miRNA:miRNA* 双 链 复合 体 (Tang et al., 2003; Kurihara and Watanabe, 2004). 
miRNA:miRNA* 复 合体 的 两 个 3 端 均 有 两 个 碱 基 的 错位 , 其 碱 基 结 合 允 许 一 定 的 错 
配 数 ， 但 通常 不 超过 4 个 ， 并 且 没 有 较 大 的 空位 或 loop 结 构 。 最 后 双 链 由 解 旋 酶 切 
开 ，miRNA* 降 解 ， 成 熟 miRNA 序 列 结合 到 靶 基 因 位 点 进行 调节 ， 根据 与 靶 位 点 
结合 的 紧密 程度 决定 了 对 目标 mRNA 切割 或 是 抑制 其 表达 (Bernstein et al., 2001; 


Papp et al., 2003; Bartel, 2004, 1). 





miRNA gene miRNA gene Exogenous dsRNA, 
transposon, virus, ... 


ol ol ol ө 


2 Pri-miRNA р Pri-miRNA Long dsRNA 


NE на "- e| ст 
oom | a = ‚| = 
e| zx Nucleus |= } 


EM CZ = 
Ши РТТ 
шшш Cytoplasm ШШ. 
miRNA:miRNAx duplex — siRNA duplexes 
° | 
Nucleus HASTY? el 
— || С "mmm 
C | ө 
ytoplasm тїтїп Lo 
ө — miRNA:miRNAx duplex № 
ШШШ, wm 
1 nnn 
el ER e| 
766666666) шиш 


Mature miRNA within RISC 
DIOGO 


В " mE Mature siRNAs within RISC 
о 9 Mature miRNA within RISC 


Target mRNAs from loci 
unrelated to miRNA gene 


图 1 miRNAs 和 siRNAs 的 产生 途径 (Bartel, 2004) 


(A) Тһе biogenesis of a plant miRNA (steps 1-6; see text for details) and its hetero-silencing of loci unrelated to that 
from which it originated (step 7). The pre-miRNA intermediates (bracketed), thought to be very short-lived, have not 
been isolated in plants. The miRNA (red) is incorporated into the RISC (step 6), whereas the miRNA* (blue) 18 


degraded (hatched segment). А monophosphate (P) marks the 5 terminus of each fragment. 


120 


浙江 大 学 http://ibi. zju. edu. cn/bioinplant/ 《生物 信息 学 札记 》 ЭЭ 


(B) The biogenesis of а metazoan miRNA (steps 1-6; see text for details) and its hetero-silencing of loci unrelated to 
that from which it originated (step 7). 
(C) The biogenesis of animal siRNAs (steps 1—6; see text for details) and their auto-silencing of the same (or similar) 


loci from which they originated (step 7). 


miRNA 基 因 长 度 从 几 十 到 几 百 碱 基 不 等 (Zhang et al., 2006ab)， 但 成 熟 
miRNA 序 列 长 度 一 般 为 20-24 个 碱 基 (Ambros, 2001)， 水 稻 中 以 21nt 和 24nt 两 种 长 
度 miRNA 舍 量 最 丰富 ， 这 跟 其 选择 的 DCL 酶 有 关 。miRNA 成 徐 排 列 的 现象 在 动物 
中 比较 常见 ， 在 植物 中 目前 已 发 现 几 个 miRNA 家 族 像 水 稻 中 的 miR169，miR395， 
也 在 基因 组 上 成 复 排 列 (Jones-Rhoades and Bartel, 2004; Zhang et al., 2006а). Б 
排列 的 miRNA 类 似 多 顺 反 子 结构 ， 基 因 表 达 模 式 和 时 期 均 有 同步 性 (Bartel, 2004; 
Altuvia et al., 2005; Baskerville and Bartel, 2005). 

JE T miRNA MAIN — 22, РУ Б КМА Е ВИК В А 
由 能 (МЕЕ, minimal folding free energy)， 由 于 MFE 跟 序列 长 度 相 关 ，Zhang 等 

(20065) 提出 了 最 小 折 半 自由 能 指标 (MFEL minimal folding free energy index) 的 
概念 ， 将 序列 长 度 考 虑 进来， 从 而 为 不 同 长 度 miRNA 前 体 的 MEF 比 较 提供 了 一 个 
标准 ， 并 给 出 0.85 作 为 miRNA 区 别 于 其 他 类 型 RNA 的 MFEI 值 ， 不 失 为 一 个 预测 
miRNA 的 较 理想 指标 。 

































































100xMEF/L 
(С + С)% 
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(L: the length of pre-miRNA) 


目前 miRBase 14.0 (http://www.mirbase.org/) 版 本 中 miRNA 的 记录 已 经 超过 1 万 条 。 
其 中 很 多 miRNA 家 族 均 可 以 在 至 少 2 个 物种 中 找到 ， 其 中 miR159, miR171 家 族 在 目 
前 miRBase 收 录 的 全 部 物种 中 均 存 在 (Tab. 1)。 这 种 miRNA 的 保守 性 对 于 在 新 物种 
中 预测 保守 的 miRNA 非 常 有 用 。 尽 管 miRNA 前 体 在 不 同 物种 ， 或 不 同 成 员 间 的 变 
异 非常 大 ， 但 成 熟 miRNA 序 列 还 是 相当 保守 的 ， 同 一 miRNA 家 族 不 同 物种 的 
homologs 间 往往 只 有 1, 2 个 碱 基 的 差异 。 这 种 便利 促使 了 大 量 的 查找 不 同 物种 间 保 
守 miRNA 的 研究 (Llave et al., 2002; Reinhart et al., 2002; Bonnet et al., 2004a; 















































Jones-Rhoades and Bartel, 2004; Sunkar and Zhu, 2004; Wang et al., 2004a; Adai et al., 
2005; Sunkar et al., 2005; Zhang et al., 2005)。 除 了 保守 miRNA 外 ， 不 同 物种 中 还 存 
在 很 多 物种 特异 的 miRNA (species-specific miRNA)， 这 类 进化 上 比较 “年 轻 ” 的 
miRNA 无 疑 在 特定 物种 的 形成 和 发 育 过 程 中 扮演 着 重要 的 作用 。 
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表 1. 植物 保守 miRNA 家 族 (根据 miRBase 14.0 和 物种 多 少 排 序 ) 


miRNA miRNA miRNA 


No. of species No. of species No. of species 





family family family 

miR-159 17 miR-394 6 miR-1510 2 
miR-171 17 miR-157 4 miR-1514 2 
miR-156 16 miR-2118 4 miR-161 2 
miR-166 16 miR-824 4 miR-2111 2 
miR-167 16 miR-1507 3 miR-2275 2 
miR-396 15 miR-2119 3 miR-413 2 
miR-160 14 miR-403 3 miR-414 2 
miR-399 14 miR-437 3 miR-415 2 
miR-169 13 miR-444 3 miR-416 2 
miR-172 13 miR-477 3 miR-417 2 
miR-319 13 miR-529 3 miR-418 2 
miR-408 12 miR-530 3 miR-419 2 
miR-164 11 miR-535 3 miR-420 2 
miR-168 11 miR-827 3 miR-426 2 
miR-162 10 miR-1122 2 miR-472 2 
miR-390 10 miR-1127 2 miR-479 2 
miR-393 9 miR-1135 2 miR-783 2 
miR-395 9 miR-1139 2 miR-821 2 
miR-398 9 miR-1432 2 miR-828 2 
miR-397 8 miR-1435 2 miR-845 2 
miR-482 7 miR-1509 2 


miRNA 通 过 与 对 基因 形成 互补 RNA 双 链 来 行使 调节 功能 ， 这 种 互补 性 在 进化 
过 程 中 是 保守 的 (Rhoades et al., 2002; Jones-Rhoades and Bartel, 2004; Robins et al., 
2005a)。 互 补 性 的 强 弱 或 者 说 互补 碱 基 的 多 嘉 决 定 了 miRNA 调 节 的 不 同 机 制 。 跟 
对 基因 有 较 好 互补 的 miRNA 主 要 通过 对 目标 mRNA 的 直接 切 制 调节 mRNA 的 表 
达 ， 相 反 ， 如 果 miRNA 与 其 车 位 点 的 错 配 较 多 ， 则 主要 通过 转录 后 抑制 的 方式 干 
扰 mRNA 的 翻译 (Papp et al., 2003; Bartel, 2004, 图 2)。 Ж ті МАН 3 4-2 
都 是 转录 因子 (transcriptional factom， 揭 示 了 miRNA 调 节 通 路 的 复杂 性 。 
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图 2 小 RNA 调 控 机 制 (Bartel, 2004) 
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(A) Messenger RNA cleavage specified by a miRNA or siRNA. Black arrowhead indicates site of cleavage. 
(B) Translational repression specified by miRNAs or siRNAs. 
(C) Transcriptional silencing, thought to be specified by heterochromatic siRNAs. 


二 . miRNA 的 计算 识别 
过 计算 方法 识别 miRNA 基 因 主 要 基于 以 上 提 到 的 miRNA 序 列 及 结构 上 的 特 

征 ， 以 及 不 同 物种 间 的 保守 性 。 可 以 分 为 以 下 几 类 方法 : 
1 同 源 比 对 

同 源 比 对 的 方法 主要 是 通过 已 知 保守 miRNA 的 在 不 同 物种 间 的 序列 相似 性 进 
行 同 源 序列 搜索 预测 miRNA 的 方法 。 以 已 知 miRNA 序 列 为 索引 ， 公 共 DNA 序 列 数 
据 库 中 的 数据 作为 搜索 库 ， 对 于 全 基因 组 已 测序 或 正在 测序 的 模式 生物 ， 如 rice， 
maize 等 ， 可 利用 其 全 基因 组 或 大 规模 测序 数据 ;对 于 基因 组 序列 并 未 获得 的 物种 
来 说 ， 小 规模 的 GSS (genome survey sequences) 序 列 和 EST (expressed sequence tags) 
序列 也 是 很 好 的 数据 资源 。 尤 其 是 EST 序 列 ， 因 为 其 本 身 就 是 表达 水 平 的 序列 ， 故 
而 预测 的 结果 更 加 准确 可 和信。 搜索 程序 可 以 选择 BLAST， 如 果 是 利用 成 熟 miRNA 
序列 进行 搜索 ， 因 为 序列 较 短 , E 值 一 般 要 高 于 1E-2, 最 小 字符 长 度 改 为 7 (默认 13， 
-W 7)， 但 利用 BLAST 比 对 仍然 会 因 程序 本 身 的 原因 造成 敏感 性 的 降低 ， 笔 者 在 实 
际 数据 处 理 过 程 中 曾 发 现 对 于 ~20nt 的 miRNA，2 个 不 连续 且 距 离 较 近 的 错 配 会 导 
致 错 配 序列 3' 端 完全 略 掉 联 配 过 程 ， 从 而 漏 掉 一 个 可 能 的 结果 ， 尽 管 这 种 情况 是 极 
少 的 。 另 外 ， 基 于 轮廓 的 搜索 软件 ERPIN (http://tagc.univ-mrs.fr/erpin/) 也 可 以 用 来 
搜索 数据 库 中 的 miRNA 同 源 基 因 位 点 。 通 过 提交 一 组 特定 RNA 的 联 配 序列 及 二 级 
结构 信息 ，ERPIN 可 以 搜索 特定 模式 的 RNA 序 列 ， 从 而 获得 更 加 准确 特异 的 结果 。 
同 源 比 对 方法 还 要 注意 以 下 几 点 : 1) 数据 处 理 过 程 中 一 般 先 通过 BLASTX 搜 索 蛋 
白质 数据 库 ， 以 排除 掉 编码 蛋白 序列 , 提高 检索 效率 ;，2) 往往 仅 找到 已 知 miRNA 
的 同 源 序列 还 远 远 不 够 ， 一 般 需 要 对 候选 miRNA 位 点 周围 的 序列 进行 二 级 结构 预 
测 ， 以 确定 该 段 序 列 是 否 可 能 形成 stem-loop 结 构 ， 并 需要 验证 miRNA 的 位 置 ， 及 
miRNA 与 miRNA* 的 互补 情况 ，3) 在 确定 了 可 能 的 miRNA 前 体 序列 后 ， 需 要 计算 
该 段 序列 的 MEF 及 MEFI 值 ， 一 般 情况 下 miRNA 前 体 的 MEF 很 小 ， 而 MEFI > 0.85, 
如 果 所 有 以 上 标准 均 符合 ， 那 么 该 位 点 即 为 候选 的 miRNA 基 因 。 
基于 同 源 搜索 方法 开发 了 很 多 软件 ， 包 括 Wang 等 《2005b〉 开 发 的 miRAlign 
软件 (http://bioinfo.au.tsinghua.edu.cn/miralign/) (图 3)， 可 以 用 来 预测 人 miRNA 基 
的 基于 概率 共同 学 习 模 型 开发 的 ProMiR (cbit.snu.ac.kr/- ProMiR2/) (Nam et al., 
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2005)， 以 及 原理 相似 ， 用 于 植物 miRNA 预 测 的 microHARVESTER 


(http://www-ab.informatik.uni-tuebingen.de/brisbane/tb/index.php?view=microharveste 


г) (图 4) (Dezulian et al., 2006). 


MiRAlign 


Input your sequence and parameters 





please inpute your sequence here(sequence length should between 50 300) 


ccagccugcugaagcucag 
Туре: Oanimal @plant 

delta_len: 

nin_seq_sin: ДД 


МЕЕ: -Ї .са1/ло1е 





图 3. miRAlign 界 面 (http://bioinfo.au.tsinghua.edu.cn/miralign/) 
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microHARVESTER on the NCBI EST database (NCBI EST est others: all non-human and non-mouse seqs аз of 27-July-2005) 


Input 


Enter precursor sequence(s) 


Enter mature sequence(s) 


[5 sequences max for one job] 
Input examples 
Try one of these miRNAs as your ATH-MIR169a ATH-MIR172a ATH-MIR390a 
query: 
You might want to take a plant 


query from the miRNA registry. 


Output examples 


This is the output for the above ATH-MIR169a ATH-MIR172a ATH-MIR390a 
example queries: 


Instructions 


Find detailed instructions here. 


Job Options 


Job-ID job33276 


Please avoid special characters in 
any input field. Best would be only 
letters and digits. Choose a unique 
job ID. 


Reset form Submit job 








4. microHARVESTER A Mi 


(http://www-ab.informatik.uni-tuebingen.de/brisbane/tb/index.php? view=microharvester) 





2. 基因 查找 

基因 查找 方法 可 以 不 考虑 miRNA 的 保守 性 ， 对 整个 基因 组 进行 扫描 ， 但 只 适 
用 于 动物 miRNA 基 因 的 预测 。 首 先 根据 不 同 物种 的 全 基因 组 联 配 信息 确定 保守 的 
非 编码 区 ,特别 是 启动 子 区 及 3' UTR 区 (Xie et al, 2005a)， 然 后 设 定 一 个 窗口 大 小 
比如 110nt 在 该 区 域内 滑动 ， 利 用 二 级 结构 预测 软件 比如 Mfold 
(http://dinamelt.bioinfo.rpi.edu/download.php) 或 RNAfold 


























(http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi) (图 5) 对 每 条 110nt 长 度 的 序列 进行 二 
级 结构 预测 并 打分 ， 给 出 候选 的 miRNA 基 因 。 目 前 有 两 个 基于 该 方法 的 软件 成 功 
预测 了 动物 miRNA 基 因 。 一 个 是 miRscan (http://genes.mit.edu/mirscan/) (图 6) 另 一 个 
是 miRseeker (Lim et al., 2003b). Гаі (2003) 在 果 蝇 基因 组 中 的 miRNA 基 因 鉴 定 
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工作 表明 ， 以 已 知 的 miRNA 基 因 做 参照 ，miRseeker 的 准确 度 和 灵敏 度 为 73% 


(18/24)， 但 是 由 于 两 种 方法 都 是 基于 一 定 的 窗口 大 小 对 保守 区 域 进行 扫描 ， 因 此 
该 方法 对 于 miRNA 基 因 序 列 长 度 变 化 较 大 的 植物 miRNA 预 测 来 说 并 不 适合 。 


ДЕСТЕ © ТВ ива- x Romas w(t Moc. x [B eos (Сава: x oobo = (Ci вата: x У Ниниви x wr anata, (Chace > Y] re mic x P сетот > ЕЕЗ 


С x http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cg 


RNAfold \WebServer 





е|Мем job|Help] 
The RNAfold web server will predict secondary structures of single stranded RNA or DNA sequences. Current limits are 7,500 nt for partition function calculations and 10,000 nt for minimum free energy only 
predicitions. 
Simply paste or upload your sequence below and click Proceed. To get more information on the meaning of the options dick the @) symbols. You can test the server using this sample sequence. 


Paste or type your sequence here: [dear] 


© Show constraint folding 


Or upload a file in FASTA format: (ЖЖ | 没有 选择 文件 
Fold algorithms and basic options 
minimum free energy (МЕЕ) and partition function ç) 
minimum free ener ‘gy (МЕЕ) only ç 
по GU pairs at the end of helices @) 
avoid isolated base pairs ç 


© Show advanced options 


Output options 
[gj interactive RNA secondary structure plot ж) 
[Vj КМА secondary structure plots with reliability annotation (Partition function folding only) W) 
(gj Mountain plot qj) 


Notification via e-mail 


upon completion of the job (optional): your e-mail 


Institute for Theoretical Chemistry | University of Vienna | rna@tbi-univie.ac.at 








图 5. RNAfold 界面 (http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi) 


以 RNAfold 为 例 来 说 明 二 级 结构 预测 软件 的 使 用 .RNAfold 是 Vienna RNA Package 
的 一 系列 用 于 二 级 结构 预测 和 计算 的 工具 之 一 。 作 为 一 个 开源 软件 ，Vienna RNA 
package 支持 Unix/Linux/Windows 多 平台 的 版 本 下 载 
(http://www.tbi.univie.ac.a/RNA/), 每 个 软件 均 有 详细 的 说 明文 档 。 上 图 是 RNAfold 
的 web server 界面 。 将 需要 做 二 级 结构 预测 的 序列 (RNA/DNA) 粘 贴 到 文本 框 中 ， 
或 将 保存 有 fasta 格式 的 文件 提交 到 server， 选 择 相 应 的 参数 ， 如 果 不 想 在 线 等 待 
结果 ， 可 以 提供 一 个 email， 在 程序 运行 完毕 后 会 将 结果 的 链接 发 到 邮箱 里 。 点 击 
"Proceed"， 最 佳 二 级 结构 结果 会 在 新 窗口 中 显示 ， 包 括 方便 批量 处 理 的 “点 -括号 ” 
格式 结果 ， 最 小 自由 能 值 ， 以 及 图 形 化 的 结果 ， 可 保存 为 .eps 或 .pdf 格式 的 文件 。 
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[Mema + 58 ават. 5 теме x Y Mierocos.. x [Ж keca PA > (D) кита x Toolbox.. x Y.) Bioinplan... х ТЭ miRseek... >) С MiRscan.. ^ (Qi) the micr. > (| Genome .. x ШЕШЕДІ 








6. MiRscan 界面 (http://genes.mit.edu/mirscan/) 





з. 邻近 茎 环 结构 搜 索 

基于 动物 miRNA 经 常 成 簇 存在 于 基因 组 上 的 特点 ， 通 过 对 已 知 miRNA 附 近 区 
域 进 行 茎 环 结构 预 测 来 发 现成 艇 存在 的 miRNA。 近 期 研究 表明 42% 的 人 类 miRNA 
基因 和 50% 的 果 蝇 miRNA 基 因 都 有 成 饼 存 在 的 现象 (Bartel, 2004; Altuvia et al., 
2005)。 由 于 植物 miRNA 成 徐 存 在 的 现象 比较 少 ， 只 有 miR169,miR395 等 儿 个 家 族 
存在 成 簇 分布， 因此 该 方法 在 植物 miRNA 预 测 方面 存在 局 限 性 。 
4. 基于 比较 基因 组 学 的 算法 

基于 比较 基因 组 方法 代表 性 研究 是 Jones-Rhoades 和 Bartel (2004) 利 用 拟 南 芥 和 
水 稻 全 基因 组 鉴定 在 两 个 物种 中 保守 的 miRNA 序 列 。 作 者 开发 了 MIRcheck 软 件 
(http://web.wi.mit.edu/bartel/pub/software.html)38 wit $3 — Bit FF Ж И ЕЛЕ BERE 25 
环 结 构 ， 以 及 是 否 有 20mers 的 短 序列 位 于 茎 的 位 置 上 ， 然 后 根据 其 在 两 个 物种 中 
的 保守 性 来 查找 保守 的 miRNA 基 因 。Adai 等 (2005) 开 发 了 findMiRNA 
(http://sundarlab.ucdavis.edu/mirna/) 可 以 针对 单个 基因 组 来 查找 miRNA, findMiRNA 
主要 依据 miRNAs 和 其 靶 基 因 序 列 互补 的 保守 性 ， 然 后 利用 二 级 结构 预测 软件 对 候 
选 位 点 进行 二 级 结构 预测 ， 找 出 有 理想 茎 环 结构 的 序列 。 需 要 注意 的 是 ， 因 为 基 
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因 组 中 很 多 类 型 的 序列 ， 如 外 NA， 逆 转 座 子 等 元 件 均 能 形成 发 卡 结构 ， 因 此 在 前 
期 序列 过 滤 和 最 终 候 选 结果 筛选 方面 要 注意 。 
5. 基于 大 规模 测序 数据 的 发 掘 方法 

从 以 上 方法 可 以 看 出 ， 大 部 分 方法 的 理论 基础 都 是 miRNA 的 序列 保守 性 ， 只 
有 基因 查找 可 以 从 miRNA 的 结构 出 发 鉴定 新 的 或 物种 特异 的 miRNA， 但 由 于 它 是 
以 一 定 长 度 为 限制 进行 扫描 ， 因 而 该 方法 对 植物 miRNA 的 预测 并 不 适合 。 随 着 新 
一 代 测 序 技术 如 454 和 solexa 技 术 的 成 熟 和 推广 ， 大 规模 的 基因 组 数据 和 RNA 数 据 
不 断 产生 。 针 对 miRNA 的 solexa 测 序 每 次 都 可 以 产生 百 万 级 数量 的 数据 。 在 海量 的 
数据 面前 仅仅 通过 前 面 介绍 的 传统 方法 显然 不 能 满足 研究 的 需要 ， 如 何 有 效 的 从 
这 些 海量 数据 中 鉴定 出 miRNA 基 因 变 成 了 一 个 迫切 而 略 带 挑战 的 课题 。 以 水 稻 方 
面 的 工作 为 例 , 最 近 发 表 了 几 篇 大 规模 鉴定 miRNA 基 因 的 文章 。 其 中 Zhu 等 (2008) 
以 发 育 的 水 稻 种 子 为 材料 最 终 鉴 定 了 39 个 新 的 非 保 守 的 miRNA 家 族 ，Sunkar 等 
(2008) 以 胁迫 处 理 的 水 稻 幼 苗 为 材料 鉴定 了 23 个 新 的 miRNA。 虽 然 采 用 的 计算 方 
法 略 有 不 同 ， 但 都 是 基于 miRNA 序 列 和 结构 上 的 保守 性 进行 预测 。 

下 面 以 Zhu 等 (2008) 的 工作 为 例 说 明 一 下 大 规模 小 RNA 测 序 的 数据 处 理 流程 。 
基于 Solexa 测 序 的 原理 , 测序 得 到 的 原始 读 序 都 是 一 端 连 接 了 接头 (adaptor) 的 同一 
长 度 的 序列 ， 因 此 首先 需要 过 滤 掉 接头 和 一 些 低 质量 的 序列 ， 这 样 得 到 了 一 个 从 
十 几 个 碱 基 到 二 十 几 个 碱 基 不 等 的 数据 库 。 对 于 已 有 基因 组 数据 的 物种 ， 比 如 水 
稻 、 拟 南 芥 等 ， 可 以 利用 序列 比 对 工具 如 BLAST 将 测 得 的 小 RNA 匹 配 到 基因 组 上 
(>18nt)。 这 样 我 们 就 得 到 了 一 个 全 基因 组 的 小 RNA 的 分 布 图 谱 。 根 据 全 基因 组 的 
注释 ， 排 除 掉 匹 配 到 重复 序列 区 域 和 编码 区 的 小 RNA。 这 样 一 方面 我 们 可 以 用 上 
面 介 绍 的 方法 来 搜索 保守 的 miRNA 基 因 ， 另 外 ， 由 于 已 知 了 小 RNA 序 列 和 其 位 置 
言 息 ， 我 们 就 可 以 利用 一 些 新 的 标准 来 识别 新 的 物种 特异 的 miRNA 基 因 。 由 于 
miRNA 在 产生 过 程 中 需要 形成 miRNA:miRNA* 复 合体 ， 首 先 ， 根 据 小 RNA 的 分 布 
寻找 候选 的 miRNA:miRNA* 复 合体 。 标 准 如 下 : 1) 两 条 小 RNA 匹 配 到 同一 染色 体 
的 同一 条 链 ， 且 相距 不 超过 400nt; 2) 不 允许 有 很 多 其 他 小 RNA 匹 配 到 两 条 序列 之 
间 的 区 域 (特别 是 有 另外 的 小 RNA 跟 其 中 一 条 部 分 配对 , 形成 “ 拖 尾 ” 现 象 ); 3) 
条 小 RNA 在 全 基因 组 的 匹配 位 置 不 能 太 多 СМЕЛО); 4) 两 条 smallRNA 的 读 
序数 需要 相差 $ 倍 以 上 《根据 miRNA 合 成 原理 ，miRNA* 在 与 miRNA 分 开 后 会 很 
快 降解 )。 两 条 小 RNA 的 配对 也 需要 符合 一 定 的 标准 (Jones-Rhoades et al. 2006): 
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1) 总 共 不 超过 7 个 碱 基 (更 严格 的 话 可 以 设 为 4 个 碱 基 ) 的 错 配 ，2) 不 超过 3 个 碱 基 
的 连续 错 配 ，3) 不 存在 一 条 链 上 超过 两 个 碱 基 错 配 而 在 男 一 条 链 上 没有 错 配 碱 基 
的 对 应 。 满 足以 上 条 件 的 两 条 小 RNA 序 列 被 当做 候选 的 miRNA:miRNA* 序 列 。 从 
基因 组 上 切 下 包含 两 条 互补 小 RNA 的 序列 作为 候选 的 miRNA 前 体 序列 进行 二 级 结 
构 预 测 ， 根 据 其 二 级 结构 及 两 条 序列 所 处 的 位 置 判断 是 否 为 候选 的 miRNA 基 因 。 

以 上 计算 方法 虽然 提供 了 一 种 相对 方便 的 鉴定 miRNA 的 手段 ， 而 且 目前 大 部 
分 miRNA 序 列 都 是 通过 计算 得 方法 预测 出 来 的 ， 但 由 于 不 同 的 预测 方法 都 存在 或 
多 或 少 的 缺陷 或 者 假 阳 性 ， 所 以 预测 得 到 的 候选 miRNA 基 因 仍 然 需要 通过 实验 方 
法 进行 验证 , 包括 直接 克隆 , Northern, PCR, 5'-RACE (5' rapid amplification of cDNA 






































































































































ends) (Griffiths-Jones, 2004; Griffiths-Jones et al., 2006). 
=. miRNA 靶 基因 的 预测 

不 像 动 物 miRNA 结 合 革 基因 的 机 制 那么 复杂 ， 植 物 miRNA 主 要 通过 接近 完 
美的 互补 配对 结合 到 靶 位 点 ， 从 而 引发 对 目标 mRNA 的 直接 切割 。 植 物 miRNA 和 
ЖЕУ SAN ЕНШ BREE: D 一 般 不 超过 3 个 碱 基 的 错 配 ; 2) 5' 端 前 10 个 碱 基 结 合 
很 紧密 ， 一 般 只 允许 1 个 碱 基 的 错 配 ，3) 5 端 第 1，11，12 个 碱 基因 为 剪 切 功能 的 关 
系 一 般 不 允许 有 错 配 ，4) 一 般 没 有 连续 的 错 配 (>=3 个 ) 出 现 。 动 物 miRNA 邯 基因 
的 预测 根据 结合 的 不 同 特点 已 经 开发 了 很 多 的 软件 , 从 miRanda, TargetScan, Pictar 
到 microTar 等 ， 但 由 于 植物 miRNA 识 别 靶 位 点 的 模式 较为 简单 ， 所 以 植物 miRNA 
划 位 点 的 预测 软件 相对 较 少 , 其 中 miRU (http://bioinfo3.noble.org/miRNA/miRU.htm) 
是 一 个 网 络 平台 ， 整 合 了 已 知 的 大 部 分 植物 mRNA 和 gene 数 据 ， 可 提供 候选 的 小 
RNA， 在 提供 的 植物 表达 数据 中 预测 是 否 有 壮 位 点 (图 7)。miRU 有 几 个 参数 可 供 
ка: 一 是 阀 值 ， 即 总 罚 分 为 3 分 ， 根 据 不 同 错 配 类 型 ， 罚 分 不 同 ; 二 是 G:U 配 对 ， 
一 般 罚 0.5 分 ， 三 是 INDEL， 一 般 不 超过 2 个 ， 四 是 其 他 类 型 ， 即 错 配 ， 总 共 不 超过 
3 个 。 然 后 选择 需要 预测 的 靶 基 因数 据 库 ， 即 Database1， 另 外 还 有 一 个 Database2， 
是 预测 保守 miRNA 靶 位 点 提供 的 参照 物种 , 可 以 降低 预测 的 假 阳 性 。 另 外 ,Zhao et 
al. 又 在 miRU 的 基础 上 开发 了 psRNATarget， 不 仅 可 以 提供 小 RNA 在 其 植物 基因 数 
据 库 中 预测 裔 位 点 , 还 可 以 提供 自己 特定 的 基因 数据 (< 70Mb) 检 验 是 否 存在 已 知 的 
miRNA 的 靶 基 因 ， 另 外 ， 最 灵活 的 服务 是 你 可 以 提供 特定 的 小 RNA 以 及 特定 的 植 
物 基因 数据 ， 进 行 完 全 个 性 化 的 靶 基 因 预 测 ， 当 然 你 的 基因 数据 大 小 有 一 定 的 限 
制 (<70мь). 
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miRU: Plant microRNA Potential Target Finder 


The program predicts plant miRNA target genes. It reports all potential sequences 
complementary to the query with mismatches no more than specified for each mismatch type. In 
addition, each mismatch is penalized according to the mismatch type and position to the 
miRNA. With default settings, the minimal score among all 20mers cannot exceed 3.0. This 
program can also be used for siRNA specificity detection. For more information about the 
prediction algorithm and questions about the search result, please click here. 





Enter your small RNA (19-28 nt) 











Score for each 20 nt 3 |” 








6:0 Wobble Pairs  |6[v] 

Indels 1 [© | 

Other Mismatches |3| | 
Dataset 1 Arabidopsis thaliana mRNA (from ПСК Ath1 5) а 





Тһе following fields are for reducing false positives in target prediction by detecting 
target complementarity conservation and are optional. Select a dataset for a different 
organism and provide homologous miRNA from the organism, and the program reports 
homologous mRNA targets with conserved complementarity. If homologous miRNA is not 
provided, the program will not check target conservation. 





Dataset 2 TIGR Rice Genome mRNA (OSA(1 release 3, 12/28/2004) | v 











Homologous miRNA 





| Submit Query | ( Reset | 





图 7. miRU 界 面 (http://bioinfo3.noble.org/miRNA/miRU.htm) 








patScan 是 另 一 个 可 以 方便 进行 miRNA 丢 基因 预测 的 软件 。patScan 提 供 了 
Unix/Linux/Windows 版 本 可 在 http://iubio.bio.indiana.edu/soft/molbio/pattern/ 下 载 。 
patScan 最 初 的 设计 是 用 来 查找 基因 组 特定 模式 的 序列 , Rhoades et al. (2002) 首 先 将 
рабсап T miRNA SEXE 9 80 , 并 评估 了 这 种 预测 方式 的 假 阳 性 (Rhoades et al., 
2002; 图 8)。patScan 的 运行 需要 调用 两 个 文件 ， 一 是 指定 搜索 的 pattern 文 件 ， 由 相 
应 的 smallRNA 序 列 和 匹配 模式 组 成 : smallRNA_sequence[4,0,0]; 另 一 个 是 用 来 预 
测 的 基因 序列 文件 ，Fasta 格 式 ， 标 题 按 照相 应 的 序列 类 型 标示 为 ">titlelCDS ..” 
或 “>titlelcDNA .等 等 。small]RNA 与 靶 位 点 的 匹配 标准 如 前 所 述 。 另 外 ， 前 面 提 
到 的 MIRcheck 和 findMiRNA 软 件 由 于 在 预测 miRNA 时 需要 考虑 miRNA 和 其 训 位 
点 的 保守 性 ， 故 而 也 可 用 来 预测 miRNA 靶 位 点 。 
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mRNA hits 
> 
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1 2 3 4 
Stringency of раігіпа (8 of mismatches) 


8. Arabidopsis miRNA 与 其 mRNA 的 反 义 匹 配 情况 (Rhoades et al. 2002) 


Annotated Arabidopsis mRNAs were searched for sites complementary to 16 Arabidopsis miRNAs with 0-4 
mismatches (solid bars). Identical searches with cohorts of 16 randomized RNAs were also performed (open bars, 
mean values from ten cohorts; error bars, one standard deviation). Note that two hits by similar miRNAs to the same 
complementary site within an mRNA were counted as separate hits (Table 1). 





第 二 节 ta-siRNA 等 的 计算 识别 

一 . ta-siRNA 的 主要 特征 

与 miRNA 不 同 ，siRNA 主 要 通过 长 的 双 链 RNA 复 合体 在 DCL 酶 的 切割 下 产生 。 
植物 体 演化 出 几 种 截然 不 同 的 iIRNAs， 它 们 在 产生 机 制 和 调节 通路 的 功能 方面 都 
有 所 不 同 (Brodersen and Voinnet, 2006; Vaucheret, 2006)。 其 中 大 部 分 的 siRNA 类 型 
(24nt) 在 依赖 RNA 的 RNA 聚 合 酶 2 (RDR2)、DCL3、PolIV 的 作用 下 产生 ， 并 通过 
AGO4 引 导 的 DNA 甲 基 化 或 组 蛋白 修饰 诱导 转录 沉默 (Zilberman et al., 2003, 2004; 
Chan et al., 2004; Xie et al., 2004; Herr et al., 2005; Kanno et al., 2005; Onodera et al., 
2005; Pontier et al., 2005; Tran et al., 2005)。 这 一 代谢 通路 往往 跟 转 座 子 、 反 转 座 因 
子 等 重复 序列 相关 (Xie et al., 2004; Lu et al., 2006; Rajagopalan et al., 2006; 
Kasschau et al., 2007)。 其 他 类 型 的 siRNA 主 要 在 转录 后 水 平 起 作 用 。 对 病毒 RNA 和 
转基因 转录 本 的 沉默 涉及 到 依赖 RDR6/DCIL4 的 siRNA Cln0 或 依赖 DCL2 的 siRNA 
(22n0。ta-siRNA 就 是 通过 RDR6/DCL4 通 路 产生 的 。tasiRNA 的 形成 主要 是 通过 
miRNA 介 导 的 按 21nt 相 位 排列 的 siRNA 的 前 切 (<=12 phases)。 不 同 的 TAS 家 族 受 不 
同 的 miRNA 调 节 ，TAS1 和 TAS2 受 miR173 的 调节 ，TAS3 在 拟 南 芥 和 水 稻 中 保守 ， 
受 miR390 调 节 ， 且 有 5' 端 和 3' 端 两 个 结合 位 点 ，TAS4 受 miR828 调 节 。TAS 基 因 的 
dsRNA 前 体 在 DCL4 作 用 下 ， 由 相应 的 miRNA 起 始 剪 切 ， 产 生 21lnt，3' 端 有 两 个 碱 
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基 错 位 的 双 链 siRNA 复 合体 (Dunoyer et al., 2005; Gasciolli et al., 2005; Xie et al., 
2005)。 不 同 TAS 家 族 切 割 产 生 的 siRNA 数 目 不 同 ， 其 中 只 有 特定 的 一 两 个 siRNA 行 
使 功能 。 根 据 以 上 特征 可 以 通过 生物 信息 学 的 方法 预测 tasiRNA。 
二 .ta-siRNA 的 计算 识别 
1. Howell 算 法 

前 面 提 到 全 基因 组 序列 已 测序 的 物种 产生 了 大 量 的 小 RNA 的 数据 ， 而 且 这 些 
不 同 组 织 或 处 理 下 测 得 的 小 RNA 可 以 很 好 的 定位 到 全 基因 组 上 。 根 据 一 段 区 域 
(<300n0) 内 小 RNA 是 否 按 照 21nt 的 位 移 排 列 这 一 显著 特征 ， 可 以 找 出 候选 的 TAS 基 
因 位 点 。Howell 等 (2007) (图 9) 设 计 了 一 套 流程 用 来 查找 拟 南 芥 中 的 候选 tasiRNA， 
首先 将 定位 到 基因 组 正 反 链 的 小 RNA 序 列 合 并 ， 将 来 自 不 同 链 的 小 RNA 定 位 位 置 
抵消 掉 2 个 碱 基 ， 这 样 来 自 一 对 复合 体 的 正 反 链 小 RNA 位 置 可 以 在 计算 的 时 候 累 
加 。 然 后 引入 P 值 作为 评价 步 移 的 参数 。P 值 的 计算 如 下 : 
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如 果 一 个 相位 长 度 设 为 21nt, n 表 示 在 8 个 相位 大 小 的 窗口 范围 内 至 少 有 一 个 小 RNA 
定位 到 相位 上 的 相位 循环 数 〈 即 n 个 相位 位 置 上 有 小 RNA 存 在 ); k 表 示 在 调查 的 这 
8 个 相位 大 小 的 窗口 里 面 正 负 链 合并 过 的 起 点 位 置 刚好 位 于 相位 上 的 小 RNA 读 序 
总 和 ; 由 于 指数 n-2 的 限定 ， 只 有 当 至 少 连 续 三 个 相位 上 (tm>=3) 都 存在 至 少 一 个 小 
RNA 才 能 保证 P 为 正 值 。 由 公式 可 以 看 出 ，P 值 受 小 RNA 丰 度 和 所 处 位 置 的 双 面 影 
响 。P 值 的 计算 按 单 碱 基 的 步 长 在 基因 组 上 滑动 ， 计 算得 到 的 P 值 分 配给 该 点 四 个 
相位 距离 的 位 置 。 因 此 ， 可 以 将 小 RNA 在 基因 组 上 的 实际 分 布 ， 如 图 9 A 中 READS 
图 所 示 ， 转 化 为 P 值 分 布 的 PHASE 图 ， 具 有 显著 高 P 值 的 位 点 被 选 为 候选 的 phase 位 
点 。 最 后 ， 根 据 ta-siRNA 受 相应 miRNA 调 控 的 现象 ， 在 预测 到 的 phase 区 域 两 端 预 
测 miRNA 靶 位 点 ， 如 果 可 以 找到 相应 的 结合 位 点 ， 那 么 这 段 区 域 可 被 认为 是 
tasiRNA-like 位 点 。 
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9. 拟 南 芥 TASla, ТА51Ь, TASlc 和 TAS2 位 点 21nt 小 RNA 分 布 及 数量 (Howell et 
al. 2007) 


2. Chen 算 法 

与 Howell 的 方法 类 似 , Chen 等 (2007) 的 方法 也 是 主要 考虑 tasiRNA 的 相位 分 布 
特征 ， 并 构建 了 一 个 P 值 来 查找 候选 的 tasiRNA 位 点 。 按 照 21nt 一 个 相位 大 小 ， 考 
虑 11 个 相位 长 度 的 一 段 区 域 ，n 表 示 位 于 该 231bp 区 间 的 小 RNA 读 序数 ，k 表 示 位 于 
该 231bp 区 间 相 位 位 置 上 的 小 RNA 读 序数 。P 值 越 大 ， 表 示 相 位 (phase) 结构 越 明 
显 。Chen 等 提供 了 相应 的 perl 脚 本 用 于 计算 P value， 可 以 在 其 文章 附件 信息 中 找 
到 。 
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| 231bp 
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Рцх-)ш--------- 
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А: number of distinct small RNAs mapped to phased positions 


е 21 
B ) Г ) | n: number of distinct small RNAs identified in 231-bp region 





10 TAS 预 测算 法 原理 (Chen et al. 2007) 


(A) The vertical arrow indicates the start site for the small RNA used to determine the phased and nonphased 
positions. 21 phased sites relative to the start site are indicated as black vertical bars. Four hundred forty nonphased 
sites relative to the start site are indicated as gray. (B) Equation based on hypergeometric distribution for statistically 
evaluating the presence of phased siRNA in genomic fragment defined in A. 


三 . 起 源 于 NAT 的 siRNA 

Natural Antisense Transcripts (NAT) 是 指 可 以 跟 其 他 转录 本 互补 形成 RNA 双 链 
的 编码 或 非 编码 RNA 序 列 。 根 据 它们 在 基因 组 上 的 相对 位 置 不 同 ，NAT 可 以 分 为 
两 类 : cis-NAT 和 trans-NAT。cis-NAT 是 指 来 自 于 跟 有 义 链 转 录 本 同一 个 基因 组 座 
位 不 同 染 色 体 链 的 序列 ，trans-NAT 是 指 跟 它 的 互补 序列 来 自 于 染色 体 上 的 不 同位 
置 的 转录 本 。 研 究 表明 哺乳 动物 和 植物 中 大 约 5%~10% 的 基因 转录 本 都 存在 
cis-NATs。Osato 等 (2003) 从 水 稳 中 预测 了 687 组 NAT; Wang 等 (2006) 从 拟 南 芥 中 预 
测 了 1320 个 trans-NAT。 起 源 于 NATs 位 点 的 SiRNA 称 为 NAT-siRNA， 主 要 介 导 转录 
后 沉默 。 起 源 于 NATs 双 链 RNA 复 合体 的 小 RNA 称 作 NAT-siRNA, 第 一 个 NAT-siRNA 
是 2005 年 从 拟 南 芥 中 鉴定 出 来 的 ， 来 自 P5CDH 和 SRO5 基 因 转 录 物 形成 的 dsRNA。 
目前 已 有 若干 大 规模 鉴定 NAT-siRNA 的 工作 在 拟 南 草 和 水 稳 中 开展 ， 并 发 现 了 许 
多 有 意思 的 结果 。 其 中 包括 cis-NAT-siRNA5' 端 第 一 个 碱 基 的 偏好 性 ， 由 于 AGO2 
和 AGO4 参 与 该 类 小 RNA 的 结合 , 故而 第 一 个 碱 基 常 常 为 腺 味 叭 (А). Хйғапз-МАТ 
的 GO 分 类 研究 表明 ， 催 化 活性 、 信 和 号 传感器 、 转 运 蛋 白 活性 相关 的 转录 本 占 很 大 
比例 。 另 外 ， 对 NATIS 结 构 的 功能 研究 表明 植物 基因 组 中 的 NATS 结 构 可 能 对 道 境 胁 
迫 方面 起 重要 作用 。 

另外 还 有 几 种 其 他 类 型 的 iRNA， 比 如 首先 从 水 稻 中 发 现 的 NATmiRNA， 其 
长 约 20nt。 前 体 hpRNA 序 列 两 条 链 分 别 转录 、 剪 接 ， 反 义 链 RNA 产 生 miRNA， 调 
节 正 义 链 mRNA 的 表达 。NATmiRNA 既 不 同 于 普通 miRNA， 因 为 普通 miRNA 的 前 
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体 hpRNA 无 需 剪 接 ， 也 不 同 于 NAIS-siRNA， 后 者 的 序列 多 来 自 两 条 链 ， 而 
nat-miRNA 几 乎 都 是 由 一 条 RNA 链 产生 ; э, NATS -siRNA 形 成 需要 DCL2， 而 
NALmiRNA 需 要 DCL1。Zhu 等 2008) 在 水 稻 中 发 现 了 一 类 miRNA-like long hairpin 
位 点 。 这 类 小 RNA 基 因 可 以 像 普 通 miRNA 那 样 形 成 长 的 发 卡 结构 ， 但 是 有 很 大 的 
loop 环 ， 其 葵 结 构 又 跟 tasi-RNA 类 似 ， 在 双 链 上 有 21lnt 的 phase 结 构 。 
四 . siRNA 靶 基 因 预 测 

尽管 siRNA 有 着 丰富 的 类 型 , 但 其 行使 功能 还 是 通过 与 间 基 因 位 点 的 序列 互补 
来 实现 (图 1)。 因此 , miRNA 名 基因 的 预测 软件 也 同样 适用 于 siRNA 的 靶 基 因 预 测 。 
值得 注意 的 是 ， 己 有 的 研究 表明 ， 特 定 类 型 的 siRNA 靶 基因 也 有 着 显著 的 区 别 。 上 
如 7TA453 的 靶 基 因 是 一 类 大 的 基因 家 族 ， 称 做 激素 响应 因子 (ARF)。 拟 南 芥 中 发 现 
的 NAT-siRNA 被 认为 与 植物 的 抗 逆 境 代谢 有 关 。 














































































































第 三 节 小 RNA 的 进化 分 析 


一 . 小 RNA 进化 研究 概况 

作为 一 类 重要 的 调控 小 分 子 , miRNA 在 大 多 数 真 核 生物 (Finnegan and Matzke， 
2003) 甚至 是 病毒 (Sullivan et al. 2005) 中 通过 RNA 干扰 机 制 调 节 各 种 代谢 途径 
植物 中 许多 编码 miRNA 的 基因 起 源 于 单 双子 叶 植物 分 化 之 前 ( 约 150 百 万 年 前 )， 
动物 中 的 miRNA 编码 基因 也 早 于 多 细胞 动物 分 化 的 时 间 ( 约 600 百 万 年 前 )。 然 
而 ， 目 前 还 没有 发 现 动 植物 中 miRNA 编码 基因 或 部 基 因 的 同 源 基因 。 这 就 提出 一 
个 进化 上 的 有 趣 的 问题 ， 这 些 编码 miRNA 的 基因 是 怎么 形成 的 呢 ? 

Allen 等 (2004) 通过 对 两 个 拟 南 芥 特异 miRNA 家 族 的 研究 揭示 了 miRNA 编 
码 基 因 与 其 靶 基 因 共 同 进化 的 一 个 可 能 的 机 制 。 由 于 miR161/163 两 个 家 族 都 是 新 
产生 的 年 轻 miRNA 编码 基因 , 而 且 跟 大 多 数 保守 的 miRNA 家 族 不 同 , miR161/163 
ВИТ ВЭ ОНОН. БАЙ: Allen 等 认为 miRNA 家 族 有 可 能 通过 基因 家 族 扩 增 
过 程 中 的 倒转 复制 或 反 向 倍增 机 制 (inverted duplication? 产生 。 如 图 11 所 示 ， 基 
因 家 族 在 扩 增 过 程 中 由 于 倒转 复制 产生 头 对 头 或 尾 对 尾 的 全 部 或 部 分 基因 复制 片 
段 ， 从 而 为 形成 miRNA 编码 的 发 卡 结构 提供 了 可 能 。 倒 转 复制 可 能 直接 从 基因 组 
上 发 生 也 可 能 通过 逆转 录 后 结合 类 似 假 基因 序列 形成 。 甚 至 一 个 基因 家 族 相 近 的 
成 员 间 的 结合 也 可 以 产生 这 样 的 创始 基因 (founder gene) 。 新 形成 的 位 点 转录 得 
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到 的 具有 发 卡 结构 的 转录 本 有 可 能 称 为 DCL ВЖЕ SP 2 siRNA 的 产生 , 从 而 使 
创始 基因 及 其 相关 的 家 族 成 员 在 转录 后 水 平 或 染色 质 水 平 受到 RNA 干扰 机 制 的 调 
控 。 部 分 创始 基因 在 分 化 过 程 中 因 维 持 发 卡 结构 以 及 被 DCL 的 识别 的 功能 限于 
形成 一 类 特异 的 siRNA 家 族 (步骤 2) 。 而 对 DCL 调控 的 代谢 途径 的 适应 性 进 

化 导致 了 miRNA 基因 的 形成 〈 步 骤 3) 。 由 于 变异 的 持续 积累 ， 部 分 基因 在 发 卡 
结构 和 DCL1 识别 功能 限制 下 ， 只 剩 下 miRNA 及 其 互补 的 miRNA* 一 段 与 原始 的 
РУМ СЕ 4) o miRNA 座位 的 复制 导致 了 miRNA 家 族 其 他 成 员 的 产生 ( 步 
ES) ， 并 由 于 变异 的 积累 导致 不 同 成 员 拥有 了 各 自 特异 的 miRNA SESE. e 
miRNA 靶 基 因 家 族 的 进化 使 该 模型 变 得 更 加 完整 。 大 多 数 miRNA 的 靶 基 因 都 是 

一 大 类 基因 家 族 中 的 亚 类 。 靶 基因 家 族 的 复制 (步骤 6) 为 调控 的 多 样 化 提供 了 基 
础 。 在 一 个 新 的 SIRNA 或 miRNA 编码 基因 形成 后 (步骤 2 或 3) ， 家 族 成 员 中 小 
RNA 结合 位 点 的 保留 (步骤 7) 或 丢失 (步骤 да) 导致 了 转录 后 水 平 调控 的 分 化 。 
同时 也 许 还 伴随 着 转录 调控 因子 的 改变 〈 步 又 8b) ， 导 致 了 进一步 的 调控 机 制 的 
差异 。miRNA 鄞 基 因 随 后 的 复制 和 分 化 事件 ( 步 又 9) 致使 不 同 miRNA 家 族 不 同 
成 员 间 拥有 了 各 自 专 一 的 鞭 位 点 及 调控 功能 。 这样， 通过 miRNA НЕРОН НО 
复制 事件 ， 以 及 结合 位 点 的 保留 或 丢失 而 形成 了 一 个 新 的 调控 网 络 。 
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图 11. 植物 miRNA 反 向 倍增 进化 模型 (Allen et al. 2004) 


然而 这 样 的 模型 也 有 很 大 的 局 限 性 。 考 虑 到 保守 miRNA 基 因 与 其 对 基因 间 在 
结合 位 点 外 并 没有 这 种 序列 相似 性 的 证 据 存在 ， 对 于 保守 miRNA 的 解释 仍然 有 待 
进一步 的 验证 。 同 样 ， 由 于 动物 miRNA 前 体 序列 较 短 ， 也 不 能 提供 创始 基因 的 信 
息 。 一 般 认 为 动物 miRNA 调 节 机 制 是 通过 miRNA 和 其 靶 位 点 间 “ 交 互 作 用 获得 ” 
事件 形成 的 。 跟 植物 miRNA 与 计 基 因 间 严格 匹配 ， 切 割 靶 基因 转录 本 不 同 ， 动 物 
miRNA 通 过 结合 到 编码 基因 的 3? 端 干扰 其 翻译 来 行使 调节 作用 ， 并 允许 其 与 结合 
位 点 间 有 较 多 的 碱 基 错 配 (Bartel et al. 2004) 。 这 一 功能 模式 的 不 同 也 表明 在 动 植物 
miRNA 编 码 基因 起 源 机 制 上 也 存在 着 差异 (Li and Mao, 2007). 

对 于 拟 南 芥 miRNA 基 因 的 研究 表明 ， 通 过 上 述 具 有 回 文 结构 位 点 产生 的 
miRNA 有 几 种 不 同 的 命运 CFig. 12): 第 一 ， 起 源 于 原始 基因 家 族 的 小 RNA 保 留 了 
调节 该 基因 的 能 力 ; 第 二 ， 小 RNA 通 过 遗传 漂 变 获得 了 特异 结合 到 其 他 基因 或 基 
家 族 的 能 力 ， 很 明显 ， 以 上 两 种 结果 均 表 明 选 择 作用 的 存在 。 第 三 ， 也 可 能 是 
最 普遍 的 命运 ， 随 着 小 RNA 产 生 位 点 启动 子 区 域 、 回 文 结构 区 域 和 靶 基 因 结 合 位 
点 突变 的 积累 而 丢失 了 调节 靶 基 因 的 能 力 。 因 此 ， 植 物 小 RNA 的 产生 机 制 为 研究 
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特定 的 调节 元 件 的 进化 提供 了 很 好 的 机 会 《Chapman and Carrington, 2007). 
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图 12 植物 新 miRNA 基因 进化 模型 (Chapman апа Carrington, 2007). 


=. Ж/Х RNA 的 进化 分 析 

遗传 学 方面 近 几 年 的 一 个 重要 的 研究 进展 是 在 动 植物 基因 组 中 发 现 了 大 量 小 
RNA 等 非 蛋 白质 编码 基因 ， 这 些小 基因 (一般 100-200bp) 在 生理 生化 等 代谢 过 
程 中 起 到 重要 作用 。 由 此 产生 一 个 有 待 回 答 的 问题 : 对 于 水 稻 等 作物 中 发 现 的 编 
码 小 RNA 的 这 些 基 因 位 点 在 我 们 人 类 进行 作物 驯化 和 育种 过 程 中 是 否 同 样 受 到 选 
Ж (参见 第 八 章 ) ? 我 们 目前 在 研究 作物 骨干 亲本 遗传 成 因 中 是 否 和 如 何 考虑 这 
些 基 因 对 骨干 亲本 形成 的 影响 ? 目前 发 现 的 人 工 选择 (育种 ) 的 基因 位 点 主要 编 
码 转录 调节 因子 和 其 他 和 蛋白质 编 码 基因 ， 我 们 的 研究 发 现 非 蛋白 质 编 码 基 因 在 人 
工 驯化 过 程 中 同样 受到 人 工 选 择 效应 的 影响 。 我 们 利用 水 稻 为 模式 作物 ， 发 现 小 
КМА 之 一 , miRNA 基因 MIR156b/c 基因 位 点 可 能 受到 强烈 的 自然 和 人 工 选择 效应 
的 影响 ， 说 明 人 工 选择 的 对 象 除了 转录 因子 及 其 下 游 基 因 外 ， 还 可 能 针对 转录 因 
子 调控 (上游 ) 基因 (апе et al, 2007). 











138 


浙江 大 学 http://ibi. zju. edu. cn/bioinplant/ 《生物 信息 学 札记 》 v 


orb 


10Mb 


20Mb 


30Mb 


40Mb 


mip156k 





图 13. 水 稻 miR156 家 族 在 基因 组 上 的 分 布 和 系统 进化 关系 (Wang et al. 2007) 





通过 水 稻 miRNA 及 其 靶 基因 结合 位 点 序列 变异 的 调查 和 直系 同 源 基因 
(Paralogs) 分 析 ， 发 现 水 稻 miRNA 基因 在 不 断 地 捕获 新 的 结合 位 点 ( 襄 基 因 )， 
同时 也 不 断 丢 失 对 靶 基 因 的 调控 功能 (Guo et al, 2008b)。 这 种 动态 的 进化 过 程 主 
要 通过 miRNA 序列 突变 来 实现 ， 同 时 插入 和 删除 也 发 挥 一 定 作 用 。 图 14 展示 了 
ЖАН miR397 靶 基 因 在 全 基因 组 前 后 的 突变 进化 情况 , 有 些 靶 基因 位 点 由 于 序列 突 
变 而 脱离 了 miR397 的 绑 定 和 调控 。 
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14. ЖА mi R397 ЗЕЕ (А) 及 其 结合 位 点 的 序列 突变 情况 (В) (Guo et al. 
2008b) 


ta-siRNA (trans acting SiRNAS) 是 植物 中 发 现 的 一 类 siRNA (ТАЗ), НЫЕ 
miR390 等 的 辅助 下 , 调控 生长 素 相关 基因 ARF(auxin response factor), 在 植物 生长 
发 育 过 程 中 发 挥 重要 调控 功能 。 目 前 已 在 拟 南 芥 中 发 现 四 个 亚 家 族 (ТА51-4) ,其 
H TAS3 在 植物 界 是 保守 的 。 在 水 稻 上 ,我 们 通过 Howell 等 (2007) 和 Chen “(2007 > 
方面 找到 了 4 个 TAS3 基因 (Zhu et al. 2008). 其 中 部 分 21nt 长 度 读 序 的 Howell 分 
布 图 见 图 15。 
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15 ЖЖ TAS3 基因 21nt 小 ВМА 读 序 的 相位 值 分 布 图 (小 RNA 数据 来 自 
Zhu et al. 2008) 
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16 水 稻 ТА83 基因 倍增 及 其 与 高 梁 同 源 基因 的 比较 基因 组 学 分 析 (Shen et al. 
2009) 
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我 们 又 通过 TAS3 基因 的 保守 序列 片段 ， 克 隆 测序 和 生物 信息 学 方法 发 现 了 





51 个 来 自 禾 本 科 的 TAS3 基因 (Shen et al, 2009)。 通 过 序列 比较 等 ， 发 现 TAS3 Ж 


























因 通 过 基因 组 和 单 基因 倍增 ， 在 禾 本 科 基 因 组 中 至 少 有 2 个 拷贝 ， 多 的 可 达到 近 
10 个 ,水 稳 基 因 组 倍增 而 来 的 TAS3 基因 在 基因 组 保持 了 其 共 线 性 关系 ; 同时 ТАЗ 















































在 不 同 禾 本 科 基 因 组 上 也 存在 明显 的 基因 组 共 线 性 (图 16)。 











=. ЖЖ miRNA 位 点 遗传 多 样 性 与 驯化 选择 研究 
Ehrenreich 和 Purugganan (2008) 对 拟 南 芥 miRNA 编码 





基因 及 其 靶 基 因 的 序 








列 变 异 情况 作 了 大 规模 调查 。 通 过 对 16 个 mRNA 家 族 66 个 成 员 及 其 对 应 的 52 
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CH 








基因 位 点 的 群体 数据 的 分 析 , 表明 成 熟 mi МА 位 点 相对 于 其 上 下 游 序 列 有 更 





高 的 保守 性 , 并 通过 中 性 检验 检测 到 了 可 能 经 受 选择 压力 的 miRNA 位 点 (MiR166f， 


miR167d, and miR395c). 





为 了 调查 模式 作物 一 水 稻 中 mRNA 是 否 经 受 人 工 选 择 即 驯化 的 影响 。 我 们 对 
ЖАЙ miRNA 进行 了 大 规模 的 群体 调查 。 对 40 个 miRNA 家 族 的 97 个 成 员 位 点 进 


























行 了 重 测序 ， 包 括 了 30 个 水 稳 籼 粳 亚 种 的 材料 。 结 果 表 明 ， 与 拟 南齐 的 群体 调查 

















结果 一 致 , 在 miRNA 成 熟 位 点 其 核 苷 酸 多 态 性 明显 低 于 两 端 序列 , 暗示 了 miRNA 


过 序列 互补 结合 误 基 因 功 能 限制 的 存在 。 同 时 ， 对 于 保守 的 miRNA 家 族 ， 其 整 




















体 的 DNA 多 态 性 相 较 水 稻 特 异 的 mRNA 来 说 要 低 一 售 ， 由 于 保守 miRNA 一 般 
参与 基础 的 代谢 网 络 的 调控 ， 因 而 有 可 能 遭受 更 强 的 净化 选择 而 保持 序列 的 保守 




















性 (Wang et al. 2010). 
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16. ЖЖ miRNA 位 点 的 序列 多 态 性 CWang et al. 2010). 
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另外 ， 我 们 还 对 Tajima’s D 检验 显著 的 miRNA 位 点 进行 了 进一步 的 正 向 选择 
言 号 的 调查 。 对 相应 的 miRNA 位 点 普通 野生 稳 群 体 (O.rwfipogon) 进行 重 测序 用 
于 中 性 检验 等 分 析 ， 结 合 Tajima's D 检验 、HKA 检验 的 结果 ， 我 们 找到 了 几 个 
miRNA 位 点 在 驯化 过 程 中 可 能 经 历 了 正 向 选择 作用 。 以 miR390 为 例 ， 其 调控 基 


因为 男 一 类 小 КМА, ТАЅЗ, 中 性 检验 的 信号 表明 ，miR390 可 能 由 于 选择 作用 的 影 
响 而 维持 了 其 特异 的 调控 作用 。 
































第 四 节 小 RNA 数据 库 

一 . miRBase 数据 库 

作为 目前 最 权威 和 完整 的 miRNA 数据 库 (http://mirdb.org/miRDB/), 截止 到 月 
前 (2009 年 11 月 )，miRBase 已 经 收录 了 一 百 余 个 物种 中 超过 10000 条 的 miRNA 
记录 (图 17)。 其 中 来 自 植物 体 的 miRNA 序列 有 1834 条 。 数 据 库 主 要 由 3 部 分 组 
成 : miRBase:Registry， 主 要 是 用 于 提交 新 的 miRNA РР; miRBase:Database， 用 
来 搜索 、 比 对 、 下 载 所 有 已 知 miRNA 相关 信息 的 数据 库 ， 包 括 成 熟 序列 、 前 体 序 
列 、 前 体 二 级 结构 、 基 因 组 位 置 、 相 关 文 献 等 等 ， 并 可 进行 BLAST 搜索 、FTP F 
载 。miRBase:Targets， 存 放 了 所 有 miRNA 靶 基 因 的 信息 。 目 前 已 经 移 至 EBI， 并 
更 名 为 microCosm。 但 主要 收录 了 动物 miRNA BS) RE AE [A] Ы, 
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图 17 miRBase 记录 和 物种 数量 增长 情况 








二 . siRNA 数据 库 

由 于 siRNA 种 类 的 多 样 性 ， 为 各 种 类 型 的 siRNA 建立 一 个 统一 的 数据 库存 在 
很 多 困难 ， 因 此 ， 目 前 siRNA 数据 的 组 织 没 有 miRNA 那样 整齐 。 这 里 提供 两 个 
数据 库 以 供 参考 ， 一 个 是 siRNA Database (http:/www.rnainterference.org/)， 数 据 库 
包括 了 来 自 人 、 大 鼠 、 小 鼠 的 siRNA 以 及 RNAi 等 方面 的 一 些 资源 。 另 一 个 是 
siRNAdb (http:/sirna.sbc.Su.se/)， 搜 集 了 一 干 多 条 经 过 实验 验证 的 siRNA 数据 和 基于 计算 
预测 的 靶 标 基因 来 自 REFSEQ 数据 库 的 siRNA. 
三 .CSRDB 和 ASRP 

CSRDB (Cereal small RNAs Database, http://sundarlab.ucdavis.edu/smrnas/) 作 
为 专门 研究 玉米 和 水 稳 小 RNA 的 数据 库 ， 利 用 454 测序 技术 产生 了 数 十 万 条 小 
RNA 的 数据 。 可 以 通过 Genome browser 查看 在 基因 组 上 的 位 置信 息 ， 并 提供 了 相 
应 的 利用 FASTH 软件 预测 的 靶 基 因数 据 库 Small RNA target pair (SRTP) dataset. 

相应 地 ，ASRP (http:/asrp.cgrb.oregonstate.edu/) 记 录 了 拟 南 芥 主 要 生态 型 和 不 
同 组 织 的 小 RNA 数据 ， 包 括 已 知 的 miRNA 和 tasiRNA。 并 提供 BLAST 搜索 、 
Genome Browser 查看 、 和 数据 下 载 。 
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四 . Gene Expression Omnibus (GEO) 

Gene Expression Omnibus (СЕО, http:/www.ncbi.nlm.nih.gov/gds) 作 为 收录 基因 
表达 数据 的 一 个 平台 ， 存 储 了 许多 原始 的 表达 数据 ， 其 中 也 包括 大 规模 测序 的 小 
RNA 数据 。 大 量 原 始 数据 的 获取 ， 对 于 从 中 挖掘 小 RNA 研究 相关 的 信息 提供 了 
很 大 的 方便 。 


























小 结 

本 章 介绍 了 作为 内 源 性 非 编码 的 小 RNA 分 子 ， 小 RNA 在 最 近 几 年 研究 的 进 
展 。 尽 管 各 种 新 类 型 的 小 RNA 仍 在 不 断 地 被 发 现 ， 但 依据 小 RNA 产生 的 前 体 主 
要 分 为 两 类 : miRNA 和 siRNA, miRNA 前 体 可 以 形成 发 卡 结构 ， 在 茎 结构 处 产生 
成 熟 的 miRNA, siRNA 主要 形成 长 的 双 链 RNA, 通过 各 种 酶 的 切 制 和 加 工 产生 成 
熟 序列 。 植 物 小 RNA 通过 剪 切 降解 靶 标 mRNA 分 子 或 在 转录 后 水 平 干扰 翻译 来 
行使 调节 功能 。 小 RNA 靶 基 因 一 大 类 是 转录 因子 ，miRNA 可 以 启 始 tasiRNA 的 
剪 切 。siRNA 类 型 非常 丰富 ， 其 中 重复 序列 相关 siRNA 占 了 很 大 部 分 。 不 同类 型 
小 RNA 的 功能 研究 已 经 发 现 了 一 些 结果 ， 但 很 多 疑问 还 需要 深入 调查 。 

生物 信息 学 在 计算 和 数据 分 析 方 面 的 优势 决定 了 其 在 小 RNA 研究 领域 所 起 的 
重要 作用 。 小 КМА 在 序列 和 结构 上 存在 很 多 明显 的 特征 ， 这 导致 计算 方法 在 不 同 
类 型 小 RNA 预测 ， 靶 位 点 查找 和 功能 分 析 方 面 都 取得 了 卓越 的 成 就 。 如 何 利用 现 
有 的 数据 和 工具 ， 并 开发 更 加 有 效 更 加 强大 的 分 析 工 具 是 生物 信息 学 人 员 需 要 考 
虑 的 课题 。 综 合 利用 不 同 的 数据 和 方法 对 提高 计算 结果 的 可 靠 性 有 重要 意义 。 

可 以 说 作为 一 个 非常 重要 而 且 在 飞速 发 展 的 研究 领域 , 小 КМА 方面 的 形成 机 
制 跟 作 用 机 理 还 有 很 多 的 谜团 等 待 着 进一步 的 挖掘 。 小 RNA 在 表达 层次 表现 的 功 
能 及 复杂 性 也 许 正 是 高 等 生物 进化 过 程 中 获得 的 一 个 重要 的 调控 机 制 。 小 RNA 序 
列 “ 身 材 ” 上 的 小 巧 和 通过 序列 互补 调控 的 机 制 在 生物 进化 的 经 济 高 效 方面 得 到 
完美 体现 ， 并 且 其 中 的 翻译 抑制 调节 机 制 是 一 个 可 逆 的 过 程 ， 对 于 生物 不 断 适 应 
变化 的 生境 有 着 很 强 的 调节 机 动 性 。 因 此 ， 随 着 研究 的 深入 ， 不 断 发 现 的 小 RNA 
的 新 功能 和 新 类 型 也 会 将 这 类 RNA 序列 在 生物 体高 效 复 杂 的 调控 网 络 中 所 起 的 
“四 两 拨 千 斤 ” 的 作用 展示 得 更 加 令 人 惊叹 ! 
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第 八 章 遗传 多 态 性 及 正 向 选择 检测 

















《物种 起 源 》 的 发 表 距 今 刚 好 150 周 年 ， 进 化 理论 的 发 展 也 经 历 了 一 个 漫长 而 
曲折 的 过 程 。 以 哈 迪 温 伯 格 遗 传 平 衡 定律 为 基础 ， 群 体 遗 传 学 三 巨头 : Fisher， 
Haldane 和 Wright 建立 了 群体 遗传 学 的 数学 基础 和 理论 框架 。 群体 遗传 学 以 数学 和 
统计 学 的 手段 研究 群体 结构 的 变化 ， 对 影响 群体 结构 的 因素 如 环境 、 遗 传 变 异 、 
遗传 漂 变 、 迁 移 进行 了 研究 。 分 子 群 体 遗 传 学 在 自然 选择 进化 论 与 Kimura 中 性 进 
化 论 的 争议 声 中 不 断 发 展 。 在 经 典 群体 遗传 学 的 基础 上 ， 以 DNA 等 分 子 序 列 为 研 
究 对 象 的 分 子 群体 遗传 学 为 种 群 演化 的 研究 提供 了 数据 来 源 ， 并 将 研究 领域 扩展 
到 新 的 层次 。 伴 随 着 中 性 理论 的 挑战 和 分 子 群体 遗传 学 的 发 展 ， 自 然 选 择 本 身 也 
在 不 断 发 展 ， 选 择 的 概念 不 断 细 化 ， 正 向 选择 ， 负 向 选择 ， 平 衡 选择 等 不 同 进化 
方式 的 机 制 得 到 深入 的 研究 。 尤 其 是 受 正 向 选择 位 点 为 揭示 一 些 重要 的 基因 座位 
的 进化 历史 和 遗传 动力 提供 了 重要 的 信息 。 随 着 大 量 分 子 水平 上 检测 到 自然 选择 
作用 的 证 据 出 现 ，Ohta 对 中 性 理论 进行 了 修改 ， 提 出 了 “ 近 - 中 性 ”进化 理论 
Cnear-neutrality)， 认 为 “突变 - 漂 变 -选择 ”三 者 在 分 子 进化 中 同时 起 作用 。 自 然 
选择 在 进化 中 的 作用 仍然 被 多 数学 者 所 认可 。 而 如 今 ， 伴 随 着 群体 数据 的 激增 和 
基因 组 计划 的 实施 ， 大 规模 的 正 同 选择 作用 的 调查 表明 自然 选择 在 物种 形成 与 进 
化 过 程 中 起 着 更 为 重要 而 广泛 的 作用 。 

分 子 群 体 遗 传 学 内 容 丰 语 ， 本 章 将 主要 从 一 些 基本 概念 和 正 向 选择 的 检测 方 
法 出 发 ， 从 群体 遗传 多 态 性 ， 变 异 频率 谱 线 ， 同 义 突变 和 非 同 义 突 变 比率 ， 单 体 
型 和 连锁 不 平衡 度 ， 群 体 结构 等 群体 特征 的 角度 介绍 相关 的 概念 ， 思 路 ， 工 具 和 
方法 。 由 于 分 子 群 体 遗 传 学 涉及 的 知识 点 很 多 ， 发 展 也 很 迅速 ， 因 此 短 短 的 一 章 
容 是 无 法 涵盖 这 一 领域 所 有 的 概念 或 知识 ， 应 该 再 参考 《分 子 进化 与 系统 发 育 》 
群体 遗传 学 领域 的 专 赣 以 及 其 他 相关 文献 进行 更 加 系统 的 学 习 。 和 希望 本 章 的 简 
要 介绍 能 为 国内 对 相关 领域 感 兴趣 的 学 生 提 供 一 些 参 考 。 
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大 多 数 生 物 的 自然 群体 具有 大 量 的 遗传 变异 。 对 于 一 个 编码 蛋白 质 的 遗传 座 
位 ， 在 群体 中 通常 含有 两 个 或 多 个 等 位 基因 (allele)。 在 一 个 群体 中 ， 存 在 两 个 和 
多 个 有 着 相当 高 频率 (通常 大 于 1%) 的 等 位 基因 时 称 为 遗传 多 态 性 。 遗 传 多 态 性 
的 产生 机 制 有 很 多 ， 如 核 昔 酸 替代 、 插 入 、 缺 失 、 转 换 和 等 位 基因 间 的 重组 等 。 
大 多 数 新 突变 由 于 遗传 漂 变 或 净化 选择 作用 从 群体 中 淘汰 掉 ， 只 有 极 少数 突变 在 
群体 中 保留 下 来 。 对 遗传 多 态 性 的 产生 和 维持 以 及 群体 水 平 上 的 进化 机 制 研究 是 
群体 遗传 学 的 主要 课题 ， 正 如 Kimura 和 Ohta (1971) 所 指出 的 ， 基 因 的 长 期 进化 和 
遗传 多 态 性 仅仅 是 同一 个 进化 过 程 中 的 两 个 方面 。 中 性 学 说 理论 认为 ， 分 子 水 平 
上 的 遗传 变异 在 很 大 程度 上 是 中 性 的 ， 变 异 程度 主要 由 突变 速率 和 有 效 群 体 大 小 
决定 (Kimura and Crow, 1964; Nei, 1987)。 因 此 ， 通 过 比较 观察 到 的 和 预测 的 遗传 
变异 来 验证 中 性 进化 这 一 假说 。 如 果 观 察 和 预测 值 之 间 的 差异 显著 ， 就 有 可 能 
在 某 种 选择 作用 。 一 个 群体 的 遗传 多 态 性 通常 是 指 等 位 基因 频率 或 者 核 苷 酸 多 态 
性 ， 两 者 在 选择 作用 的 检验 方面 都 有 不 同 的 应 用 。 































































































一 . 影响 群体 遗传 多 样 性 的 因素 

群体 或 称 种 群 (population) ， 在 进化 过 程 中 受 各 种 因素 的 影响 ， 反 映 在 其 遗 
传 结构 上 就 产生 了 复杂 的 遗传 构成 。 这 些 因 素 包 括 突变 (mutation )、 种 群 历史 
(demographic history)、 遗 传 漂 变 (genetic drift)、 自 然 选 择 (natural selection). 
重组 (recombination〉 等 等 ， 他 们 对 群体 的 遗传 构成 产生 不 同方 面 的 影响 。 

一 般 认为 ， 突 变 为 物种 的 进化 提供 了 物质 基础 , 增加 了 遗传 的 多 样 性 ， 是 进化 
的 主要 动力 。 

在 一 个 小 群体 内 ， 因 为 每 个 个 体 的 后 代 存活 数量 存在 差异 ， 而 每 个 个 体 在 同一 
遗传 座位 上 可 能 携带 不 同 的 等 位 基因 ， 每 代 传递 到 下 一 代 个 体 的 基因 频率 ， 会 产 
生 较 大 误差 ， 由 这 种 抽样 误差 引起 群体 基因 频率 的 随机 变化 ， 叫 做 遗传 漂 变 。 遗 
传 漂 变 主要 受 有 效 种 群 大 小 影响 ,一般 来 说 ， 有 效 种 群 越 大 ,遗传 漂 变 的 效应 越 


小 。 













































































PEDI SE (demographic history) 主要 包括 种 群 扩 增 、 黄 基 者 效应 (founder 
effect). ЛЕЛ У (bottleneck)、 种 群 缩减 、 分 割 (population subdivision )、 种 群 
间 的 基因 交流 (gene flow) 等 等 影响 种 群 遗 传 构成 的 因素 。 黄 基 者 效应 是 指 遗 传 
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漂 变 的 一 种 形式 ， 指 由 带 有 杀 代 群体 中 部 分 等 位 基因 的 少数 个 体重 新 建立 新 的 群 
体 的 过 程 。 瓶 颈 效应 可 以 看 做 鞠 基 者 效应 的 一 种 。 迁 移 是 指 对 于 一 个 大 种 群 而 言 ， 
在 每 个 世代 有 部 分 个 体 迁 入 从 而 引起 基因 频率 变化 。 

自然 选择 作用 于 非 中 性 突变 上 , 或 者 增加 有 利 突变 在 群体 中 的 频率 , 或 者 消除 
不 利 的 突变 ， 或 者 以 其 他 的 方式 对 遗传 的 多 样 性 进行 修饰 。 关 于 选择 的 作用 在 第 
二 节 会 进行 更 详细 的 介绍 。 

不 同 的 因素 互相 作用 互相 影响 ， 形 成 目前 我 们 观察 到 的 种 群 的 复杂 的 遗传 构 
成 ， 群 体 遗 传 学 的 一 个 重要 内 容 就 是 试图 分 辨 遗传 漂 变 和 种 群 历史 跟 自然 选择 万 
其 是 正 向 选择 的 效应 ， 从 而 检测 出 进化 上 重要 的 基因 位 点 。 







































































二 . 等 位 基因 频率 

一 个 特定 等 位 基因 在 某 个 群体 中 的 相对 比例 称 为 等 位 基因 的 频率 。 假设 一 个 座 
位 上 有 一 对 等 位 基因 Al 和 A2， 频 率 分 别 为 x1 和 x2。 在 二 倍 体 生 物 的 群体 中 ， 
该 座位 共有 З 种 可 能 的 基因 型 ， 即 A1A1，A1A2，A2A2， 频 率 分 别 为 X11，X12， 
X22。 一 般 在 随机 交配 ， 肉 雄 配子 随 机 结合 的 情况 下 ， 基 因 频 率 和 基因 型 频率 的 关 
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_ 2 
guod = ыа 90, X, =х; ,这 一 规律 称 为 哈 迪 一 温 伯 格 (Hardy-Weinberg ) 
定律 。 固 定 系 数 F 是 指 对 于 一 个 座位 上 的 两 个 等 位 基因 的 基因 频率 ， 与 
Hardy-Weinberg 定律 的 偏差 。 比 如 : 






































X =@-Е)х + Fx, X, = 2(1— Е)хух,, Xn = (1— Е)х; + Fx, 
因此 Е=(2х x- X)/(2: 
Ж 2x,x, 为 随机 交配 Ch) 情况 下 杂 合 子 的 预期 频率 ，X1 为 群体 Cho) PRE 
子 的 观察 频率 ， 则 上 式 可 表示 为 : F=(h-h)/h 
“4 ho hit, FRIE: 25 ho KF hit, FRG. Nei 对 多 等 位 基因 群体 
HJ F ЕЯ SR, 84911724 Nei 和 Kimura《 分 子 进化 与 系统 发 育 》 一 
qs 











三 .DNA 多 态 性 

对 于 自然 群体 的 遗传 变异 研究 而 言 , DNA 序列 比 蛋白 质 序列 提供 了 更 多 信息 。 
首先 ， 对 于 DNA 非 编码 区 的 遗传 变异 〈 内 含 子 ， 基 因 间 区 域 ) 或 编码 区 的 同 义 核 
音 酸 蔡 代 只 能 通过 DNA 序列 来 研究 。DNA 多 态 性 可 以 用 不 同 的 方法 来 度量 ， 比 
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较 常 用 的 是 每 个 核 苷 酸 座位 的 分 离 位 点 数目 和 核 音 酸 多 样 性 〈 或 核 音 酸 水 平 杂 合 
度 )。 

















6 21 
iR166e TCGAACCAGG CTTCATTCQ 
iR166a TCGGACCAGG CTTCATTCQ 





iR166g TCGGACCAGG CTTCATTCQ 
iR166i TCGGATCAGG CTTCATTCQ 
iR166k TCGGACCAGG CTTCAATCQ 
iR166m TCGGACCAGG CTTCATTCQ 






































图 1. 群体 联 配 数据 











1. 分 离 位 点 数目 
考虑 一 个 给 定 的 DNA 区 域 (座位 ) 并 假定 从 一 个 群体 中 抽取 т 个 拷贝 (基因) 如 
Ж DNA 区 域 长 度 为 n (n 个 碱 基 )， 对 于 这 m 条 经 过 多 序列 连 配 的 序列 ， 任 何 有 两 
种 或 多 种 碱 基 的 位 点 被 称 为 分 离 位 点 Csegregating site), (图 1)。 用 S 表示 一 组 数 
据 中 的 所 有 分 离 位 点 数目 。 用 s 表示 所 有 分 离 位 点 数目 的 总 和 。 没 个 核 背 酸 座位 
(p. 的 分 离 位 点 数目 为 p, = Sn, п 为 所 研究 的 序列 长 度 。S 和 p, 很 明显 取决 于 样 
本 大 小 ， 当 т 增 大 时 ， 它 们 也 增 大 。 在 满足 无 限 位 点 遗传 模型 条 件 下 ， 即 假设 任 
何 一 对 核 昔 酸 座位 之 间 不 发 生 重 组 而 且 新 突变 总 是 发 生 在 非 分 离 位 点 ， 考 虑 р, 的 
期 望 值 。 进 一 步 假设 不 存在 自然 选择 而 且 群 体 达到 突变 -漂移 平衡 ，p, 的 期 望 值 可 
有 下 式 得 出 : 




































































Е(р,) = ад 
HP, а -1-27-314---4(т-1)/7,0-4Хд (Watterson, 1975), Ж, М 
和 j4 分 别 是 有 效 群 体 大 小 和 每 个 位 点 的 突变 速率 。 每 个 序列 的 突变 速率 为 v=ny。 
RHE, Elp) BE m 的 增 大 而 增 大 ，p, 的 理论 方差 为 : 
У(р,) = Е(р,)/п+а,0? 
其 中 ， 4... 因此 , р, 的 方差 也 随 m К К, Өх 
一 个 比 p; 更 基本 的 遗传 变异 参数 ， 因 为 它 是 突变 速率 和 群体 大 小 的 积 ， 并 且 独 立 
于 样本 大 小 。 可 由 下 式 估算 : 
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9 的 方差 为 : vo )= У (рог 
这 个 等 式 只 有 在 考虑 中 性 突变 且 群 体 大 小 在 进化 过 程 中 保持 恒定 时 才 是 正确 























的 。 这 里 的 9 有 时 也 写 做 gw。 
2. BIAS ASHE 

一 个 不 依赖 于 样本 大 小 m 的 DNA 多 态 性 的 测度 是 两 个 序列 间 每 个 位 点 上 核 昔 
酸 差异 的 平均 值 或 是 核 苷 酸 多 样 性 。 定 义 为 ; 


z = > xx d, 


q 
U 











= 











其 中 q 是 等 位 基因 的 总 数 , x 是 第 i 个 等 位 基因 的 群体 频率 ，di 是 第 i 个 和 第 j 
个 等 位 基因 间 每 个 座位 的 核 蔡 酸 差异 数 或 蔡 代 数 。 在 一 个 随机 交配 群体 中 ,zx 只 是 
核 音 酸 水 平 上 的 杂 合 度 ， 可 由 下 式 估 算 : 


^ q ^ ^ 
л=—— 2 xi x; d. 
4-12 | 






































或 л- Уа, Гс (ij 指 第 i 和 第 j 条 序列 ) 


i<j 





其 中 由 xc 分 别 是 所 研究 的 DNA 序列 的 总 条 数 ， 样 本 中 第 i 个 等 位 基因 的 频 
率 和 序列 比较 的 总 数 [m(m-1)/2]。 

作为 9 的 两 个 估计 值 , w 和 xz 的 差异 反映 了 群体 在 核 蔡 酸 多 态 性 水 平 上 偏离 中 
性 进化 且 处 于 突变 -漂移 平衡 的 理想 模型 的 程度 。 另 外 ， 衡 量 DNA. 多 态 性 还 有 一 
个 很 重要 的 指标 ， 变 异 的 频率 谱 线 Cfrequency spectrum of variation)， 是 指 根据 不 
同 变异 出 现 的 频率 计算 的 杂 合 度 。 






































第 二 节 正 向 选择 的 统计 检验 

一 . 自然 选择 的 分 类 

为 了 阐明 不 同类 型 的 自然 选择 , 我 们 仍然 以 一 对 等 位 基因 为 例 进行 解释 。 假 设 
一 个 群体 开始 存在 单一 的 等 位 基因 Al， 在 一 个 时 间 点 上 由 于 突变 引入 了 另 一 个 等 
位 基因 Az， 那 么 该 群体 中 总 共存 在 三 种 基因 型 AIAl，AlIA>，A2A， 定 义 每 种 基因 
型 的 适合 度 分 别 为 Wn，W12，W22， 简 单 来 说 ， 基 因 型 的 适合 度 是 指 携带 特定 基 
因 型 的 个 体 存 活 的 几率 。 为 了 更 好 的 理解 不 同情 况 下 发 生 的 选择 情况 ， 我 们 将 绝 
对 适合 度 转化 为 相对 适合 度 , 三 种 基因 型 的 相对 适合 度 分 别 为 1, 1 +hs, 1+s (1+ 

































































123 


浙江 大 学 http://ibi.zju. edu. cn/bioinplant/ 《生物 信息 学 札记 》 71 


hs = W/W, 1 +s = Мо Ми), АА, AA 的 适合 度 就 转化 为 ААА, 的 适合 度 
来 表示 。 其 中 s #l h 分 别 指 选择 系数 和 杂 合 效应 。s 值 的 正 负 以 及 h 值 的 大 小 决定 
了 选择 的 类 型 。 如 果 三 种 基因 型 的 适合 度 相等 ， 即 s = 0， 那 么 各 种 基因 型 频率 维 
持 恒 定 ， 在 进化 上 是 中 性 的 ， 否 则 就 有 选择 发 生 。 当 0 <h < 1， 会 产生 定向 选择 。 
定向 选择 会 限制 群体 内 的 变异 ， 使 某 种 特定 的 基因 频率 增加 或 降低 。 如 果 s < 0, 
表明 等 位 基因 Ao 是 有 害 的 ， 携 带 该 基因 的 个 体 适 合 度 低 ， 从 而 发 生 净 化 选择 〈 或 
称 负 向 选择 ，purifying selection or negative selection) 使 A» 在 群体 中 的 频率 降低 。 
如 果 s> 0， 表 明 引 入 的 等 位 基因 A» 是 有 利 突变 ， 携 带 该 等 位 基因 的 个 体 更 适合 生 
Ж, ЖА А 将 最 终 在 群体 中 固定 下 来 ， 这 就 是 一 般 意 义 上 的 正 向 选择 (positive 
selection)。 另 一 种 针对 有 利 位 点 的 选择 为 当 s> 0, її» 1 时 ， 杂 合 基 因 型 有 最 高 的 
相对 适合 度 ， 称 为 超 显 性 选择 〈 也 称 为 杂 合子 优势 ，overdominant selection or 
heterozygote advantage)。 超 显 性 选择 是 平衡 选择 (balancing selection) 的 一 种 。( 另 
一 种 普遍 的 观点 是 认为 针对 有 益 位 点 的 选择 作用 都 称 为 正 向 选择 (Nielsen, 2005), 
但 往往 大 家 关心 的 都 是 定向 选择 范畴 的 正 向 选择 )。 

正 向 选择 通常 会 造成 受 选择 位 点 遗传 多 态 性 的 降低 , 同时 有 利 变 异 的 积累 往往 
引起 选择 搭载 效应 (hitchiking effort) 或 选择 扫荡 (selective sweep) (Fig. 图 2), 
前 者 是 指 对 正 向 选择 位 点 的 选择 作用 会 引起 相 邻 连锁 位 点 频率 的 上 升 ， 后 者 是 指 
受 选 择 位 点 两 侧 的 序列 多 态 性 会 因 连 带 效应 而 保持 很 低 的 水 平 。 两 种 说 法 其 实 是 
一 种 现象 的 两 种 表现 ， 本 质 是 相同 的 。 另 外 ， 正 向 选择 往往 引起 连锁 不 平衡 的 增 
加 。 连 锁 不 平衡 (Linkage disequilibrium, LD) 是 指 不 同 座位 的 两 个 等 位 基因 出 现 
在 一 条 染色 体 上 的 频率 与 随机 组 合 出 现 的 频率 不 一 致 的 情况 。 这 些 特征 均 是 用 来 
检测 正 向 选择 的 信号 。 但 需要 注意 的 是 ， 随 机 漂 变 或 种 群 动态 的 影响 往往 也 可 以 
引起 遗传 构成 的 变化 ， 如 何 有 效 的 区 分 不 同 因素 的 影响 是 目前 仍 需 解决 的 难题 和 
热点 。 
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图 2. 受 正 向 选择 的 等 位 基因 信和 号 与 检测 方法 的 关系 (Biswas and Akey, 2006). 


二 . 中 性 检验 

以 中 性 进化 学 说 作为 零 假 设 , 通过 统计 检验 的 方法 检测 一 个 群体 的 遗传 参数 是 
否 符 合 中 性 进化 模型 ， 如 果 拒 绝 零 假设 ， 表 明 有 其 他 因素 比如 选择 效应 的 存在 ， 
这 类 方法 统称 为 中 性 检验 。 目 前 为 止 ， 中 性 检验 的 方法 已 经 开发 了 很 多 ， 依 据 利 
用 的 数据 大 体 可 分 为 三 类 : 基于 种 内 多 态 性 的 检验 方法 (intraspecific 
polymorphism)、 基 于 种 间 分 歧 度 的 检验 方法 Cinterspecific divergence) 和 基于 种 内 
多 态 和 种 间 分 歧 度 Cintraspecific polymorphism and interspecific divergence) 的 检验 
方法 。 需 要 注意 的 是 ， 在 具体 的 分 析 过 程 中 ， 一 种 检验 的 结果 往往 不 能 给 出 可 靠 
的 结果 ， 需 要 结合 多 种 检验 以 及 具体 的 生物 学 背景 才能 给 出 比较 合理 的 解释 。 
1. 基于 种 内 多 态 性 的 检验 方法 
1.1. 基于 位 点 变异 的 频率 谱 线 
1.1.1. Tajima's D 测验 

Tajima's D 检验 通过 比较 群体 突变 率 的 两 个 估计 值 9w 和 zz 的 差异 检测 正 向 选 
择 效应 。 前面 提 到 了 群体 遗传 参数 0 的 理论 值 为 = AN. м, Ме 为 有 效 群 体 大 小 ， 
为 突变 频率 。 然 后 根据 两 个 估计 值 9w 和 zz 的 差异 构建 Tajima's D 检验 : 
































– 0 
Pa (Tajima, 1989) 


(сау) 
通过 蒙特 卡 罗 随 机 模拟 (Monte-Carlo simulation) 产生 Тайша D 检验 的 分 布 
曲线 和 临界 值 ，D 值 的 分 布 并 非 严格 的 正 态 分布 ， 反 而 与 8 分 布 比较 接近 。 实 际 
计算 过 程 中 也 可 以 根据 实际 数据 进行 模拟 进行 检验 。 
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在 中 性 进化 条 件 下 ，0w 和 zz 的 值 应 该 近似 相等 。 因此 在 标准 中 性 进化 模型 下 ， 
Tajima's D 的 理论 值 为 零 。 由 于 0w 的 计算 不 考虑 分 离 位 点 的 频率 ， 只 跟 分 离 位 点 
的 数目 有 关 ， 所 以 即使 群体 中 存在 大 量 的 低频 变异 也 会 对 0Ow 产 生 很 大 影响 。 由 于 
元 计算 的 是 群体 中 序列 差异 的 平均 值 ， 因此 zz 的 大 小 跟 变 异 频率 有 关 。 如 果实 际 的 
Tajima's D 值 明显 偏离 零 , 表明 实际 的 等 位 基因 频率 相对 于 中 性 进化 模型 的 期 望 存 
Emi. WR Tajima's D 值 为 正 ， 表 明 存 在 大 量 的 中 等 频率 的 等 位 基因 ， 这 可 能 是 
由 于 群体 瓶颈 效应 ， 群 体 结构 ， 或 者 平衡 选择 引起 的 。 如 果 Tajima's D 值 为 负 ， 表 
明 存 在 大 量 的 低频 等 位 基因 位 点 ， 以 下 几 种 情况 可 能 会 导致 刀 值 为 负 。 首 先 ， 当 
所 研究 的 群体 中 产生 有 害 突变 时 ， 这 些 突变 将 受到 负 向 选择 的 作用 在 群体 中 保持 
较 低 的 频率 ， 低 比例 的 突变 有 所 增加 ， 导 致 D 值 为 负 。 另 外 ， 当 群体 中 一 条 等 位 
基因 受到 强烈 的 正 向 选择 作用 时 ， 其 附近 与 之 紧密 连锁 的 座位 的 上 变异 将 伴随 这 
条 等 位 基因 比例 的 升 高 而 增加 自身 在 群体 中 的 比例 ， 即 选择 搭载 效应 。 搭 载 效 应 
过 后 ， 中 性 突变 的 积累 同样 会 造成 额外 的 低 比 例 的 变异 。 因 此 ，D 值 如 果 为 负 显 
著 ， 既 可 能 是 负 向 选择 造成 的 ， 也 可 能 是 正 向 选择 的 信号 。 最 后 ， 刀 值 显著 并 不 
一 定 是 选择 造成 的 ， 只 是 可 能 存在 选择 作用 的 信和 号。 

1.1.2. Fu Ñ Li D #l F WI 

ЖІ Tajima's D 检验 相似 ，Fu 和 LiD 和 F 45:35 0 X5 38 2 pr Ë [8] 589056) 
偏 倚 检 测 群 体 是 否 偏离 中 性 进化 。 所 不 同 的 是 ， 后 者 考虑 变异 出 现 的 时 间 因 素 ， 
即 根据 在 系统 进化 树 上 位 置 确定 早期 产生 的 突变 与 近代 产生 的 突变 的 分 布 差异 ， 
或 根据 系统 进化 树 上 的 位 置 称 为 外 缘 突变 (Fig3. 4, е, f, о, h) 或 内 部 突变 (图 3. a, 
b, c). 
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图 3. 一 棵 5 条 序列 构建 的 系统 树 〈 周 琦 等 ，2004)。 














如 果 种 群 受 到 负 选 择 作 用 ,有害 变异 频率 因 选 择 而 降低 ， 或 一 条 有 利 的 等 位 基 
因 频 率 受 正 向 选择 作用 在 种 群 中 刚 固 定 不 入 ， 都 会 导致 外 缘 突 变相 对 内 部 突变 的 
比例 大 大 增加 。 相 反 ， 如 果 受 到 平衡 选择 的 影响 ， 则 外 缘 变 异 相 对 较 少 。Fu Li 
刀 和 下 检验 构建 了 四 种 统计 检验 量 ,不 同 的 检验 量 之 间 只 是 根据 不 同 的 方法 对 0 进 
行 估算 ， 这 里 只 介绍 根据 外 群 对 0 进行 估计 的 检验 。 外 群 Coutgroup) 是 指 在 进化 
关系 上 与 所 研究 种 群 近 缘 但 又 不 属于 同一 类 群 的 分 类 单元 。 比 如 相对 于 O.sativa 
来 说 ，O.pat1 关 可 以 看 做 是 其 外 群 。 利 用 外 群 的 数据 可 以 构建 一 颗 有 根 树 Crooted 
tree)， 计 算 外 缘 突变 : 
































E(n,) -0 (Fu and Li, 1993) 
内 部 突变 : ЕП, = 4- 0 (Fu and Li, 1993) 
п-1 1 : 、 7 
Е, а = к п 为 样本 数目 。 
ia l 
П, әс 
构建 统计 检验 量 : G= І (Fu and Li, 1993) 
V(g,-—1—) 
a, -1 


类 似 地 ，G tfo 21. Tajima's ОКОЛ Fu ЯП Li D RI F 105935) ИВ 
DnaSP 进行 计算 。 
1.1.3. Fay 和 Wu's H 测验 
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如 前 所 述 ， 不 同 的 进化 因素 往往 产生 相似 或 相同 的 DNA 多 态 。 比 如 背景 选择 
效应 与 搭载 效应 都 会 造成 种 群 平均 杂 合 度 的 降低 。 此 时 一 些 中 性 检验 对 如 何 区 分 
正 向 选择 效应 有 些 力不从心 。 为 了 解决 这 一 问题 ，Fay 和 Wu (2002) 提出 了 一 个 
专门 检验 搭载 效应 的 中 性 检验 方法 : Н Ж. 五 检验 与 Tajima's D 检验 的 区 别 是 前 
者 利用 通过 变异 频率 估计 得 到 的 9 的 估计 值 0, 与 x 进行 比较 。 假 设 样本 大 小 为 n， 
出 现 过 i 次 变异 的 数目 为 5$;， 那 么 : 











el 5r 
0, = > i (Fay and Wu, 2000) 





Ө, 对 于 高 比例 的 变异 比较 敏感 ， 当 有 搭载 效应 存在 时 ， 将 产生 高 比例 的 变异 ， 这 
是 搭载 效应 区 别 背 景 选择 效应 的 一 个 显著 标志 。 利 用 这 一 特征 构建 Hrs: 


Н- Еа я (Ғау апа Wu, 2000) 


SHES EMS, ФВ РТ АУН H ВЕЗЕТ 3k ak M ЧИА. 五 检验 可 以 
通过 访问 http:/www.genetics.wustl.edu/jflab/htest.html 计 算 。 
1.2. 基于 连锁 不 平衡 

在 一 段 DNA 序 列 中 , 位 点 与 位 点 之 间 存 在 着 连锁 的 关系 。 不 同位 点 间 的 连锁 构 
成 了 “ 单 倍 体型 ”。 随 着 重组 的 积累 ， 特 定 的 单 倍 体型 会 被 削弱 而 逐渐 消失 。 由 于 
重组 率 与 连锁 距离 有 关 ， 所 以 连锁 不 平衡 范围 会 逐渐 缩短 。 对 于 新 产生 的 一 个 单 
倍 体型 ， 由 于 重组 来 不 及 破坏 位 点 之 间 的 连锁 ， 所 以 它们 之 间 连 锁 不 平衡 的 距离 
往往 比较 远 。 在 中 性 条 件 下 ， 如 果菜 个 单 倍 体型 是 较 新 产生 的 ， 那 么 它 的 频率 往 
往 较 低 ， 而 频率 较 高 的 单 倍 体型 ， 需 要 经 历 很 长 一 段 时 间 才 可 能 因为 受到 随机 漂 
变 的 影响 达到 较 高 的 频率 。 如 果 群 体 经 历 了 正 向 选择 ， 那 么 与 有 利 位 点 连锁 的 周 
围 位 点 会 由 于 搭载 效应 频率 很 快 提升 ， 所 以 包含 有 利 位 点 的 单 倍 体 型 一 方面 有 着 
较 高 的 频率 ， 另 一 方面 由 于 经 历 的 时 间 不 长 ， 因 此 也 有 着 较 长 的 LD 影 响 范 围 。 这 
种 特征 为 检测 是 否 发 生 了 正 向 选择 提供 了 一 个 有 效 的 突破 点 。 
1.2.1. LRH (Long range haplotype) 测验 

Забей Е (2002) 提出 了 LRH 方法， 通过 对 基因 组 上 的 核心 单 倍 体型 (Core 
haplotypes) 的 研究 提出 了 一 种 可 以 进行 全 基因 组 扫描 的 检测 正 向 选择 的 方法 。 所 
谓 的 核心 单 倍 体型 就 是 指 基因 中 存在 的 重组 率 较 低 的 密集 区 域 。 计 算 它们 的 连锁 
不 平衡 度 ， 如 果菜 个 核心 单 倍 体型 的 连锁 不 平衡 程度 高 于 具有 其 相同 频率 的 一 般 
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单 倍 体型 ， 那 么 这 个 位 置 很 有 可 能 经 历 了 正 选择 。 假 如 要 测量 距离 核心 单 倍 体型 
为 x 的 区 域 ， 其 连锁 不 平衡 的 衰减 通过 EHH (Extended haplotype homozygosity ) 
来 计算 。EEH 的 定义 是 : 两 条 随机 选择 的 染色 体 从 核心 单 倍 体型 到 距离 为 x 之 间 
的 区 域 存在 相同 核心 单 倍 体型 的 概率 〈 图 4)。 











-480 kb G6PD +220 kb 


| | | H E | | | | Telomere 


-180 kb TNFSF5 +520 kb 
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图 4. 以 G6PD 和 TNESES 两 个 位 点 说 明 核 心 单 倍 体型 与 周边 SNP CSabeti, et al. 2002). 








1.2.2. HS (Haplotype similarity) 

HS 检验 是 计算 单 倍 体型 相似 性 的 检验 方法 。 对 于 一 批 DNA 样 本 数据 , 观察 其 
第 一 个 多 态 位 点 ， 记 这 个 多 态 位 点 上 频率 较 低 的 等 位 基因 为 X, 然后 计算 X 所 关联 
的 染色 体 的 HS 值 。 计 算 方 法 是 通过 一 个 滑动 窗口 滑 过 整 段 染 色 体 ,计算 每 个 窗口 
中 单 倍 体型 的 纯 合 度 ,然后 对 所 有 的 窗口 取 平 均值 。 
之 之 
HS === 

Т 

其 中 7 是 窗口 的 总 数 , k 是 一 个 窗口 中 不 同 单 倍 体型 的 个 数 ，f 是 与 X 相 关联 的 
单 倍 体型 的 频率 CHanchard et al. 2006)。 上 述 过 程 是 以 第 一 个 多 态 位 点 为 基准 进行 
By, 同样 可 以 以 第 二 个 、 第 三 个 等 多 态 位 点 为 基准 进行 类 似 的 计算 。 以 某 个 多 态 位 
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点 为 基准 计算 ， 如 果 其 相关 HS 值 的 水 平 高 于 同等 频率 下 的 其 他 多 态 位 点 ， 那 么 在 
该 多 态 位 点 上 可 能 发 生 了 正 选 择 。 


1.2.3. iHS (ІНН score) 测验 





iHS 是 通过 计算 同一 个 SNP 上 旧 的 和 新 的 等 位 基因 的 iHH 比 值 并 取 对 数 得 到 的 : 








iHS = ја ај 
ІНН 
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其 中 iHH 指 对 EHH 的 积分 (Integrated EHH) , АНИ (Ancestral) 等 位 基因 ， 
D 指 新 的 〈Drived) 等 位 基因 (Voight et al. 2006) 。iHS 的 基本 原理 和 LRH 很 相似 。 
当 iHS 为 较 大 的 正 值 时 ,暗示 长 的 单 倍 体型 可 能 包含 旧 的 等 位 基因 , 而 iHS 为 较 大 的 
负 值 时 ， 暗 示 长 的 单 倍 体型 可 能 包含 新 的 等 位 基因 (Biswas et al. 2006). 
1.2.4. LDD (Linkage disequilibrium decay) 测验 

грр 测试 指 连锁 不 平衡 衰减 测试 。 而 LD 是 通过 计算 FRC (Fraction of 
recombinant chromosomes) 来 体现 的 。 具 体 方法 是 ， 对 于 一 个 多 态 座 位 ,不 考虑 这 
个 座位 上 的 杂 合 子 , 而 在 纯 合子 中 观察 其 较 少 的 等 位 基因 和 较 多 的 等 位 基因 , 考察 
所 有 的 染色 体 , 将 其 中 与 较 少 等 位 基因 关联 的 编 成 一 组 , 而 将 与 较 多 等 位 基因 关联 
的 编 成 男 一 组 , 然后 分 别 在 两 组 内 这 个 位 点 周围 一 个 事先 预 设 好 的 窗口 中 , 计算 重 
组 频率 与 距离 的 关系 , 也 就 是 计算 不 同 距离 范围 内 相应 的 重组 率 。 将 这 些 重组 率 和 
相应 的 距离 配对 、 列表 , 和 标准 中 性 模型 的 这 些 值 进行 方差 比较 , 即 计算 出 ALnLH 
(Average log likelihood) (Wang et al. 2006)。 在 正 选 择 发 生 时 ,临近 选择 位 点 的 
ALnLH 将 高 出 一 般 的 水 平 (Biswas et al. 2006)。 
1.3. 基于 群体 分 化 

前 面 提 到 ， 群 体 的 固定 系数 F 反映 了 群体 等 位 基因 杂 合 性 水 平 。 固 定 系数 F 
Ж F 统计 量 F 的 一 个 特例 ，F 统计 量 ， 一 个 比较 简单 的 理解 是 通过 遗传 多 态 
性 的 数据 ， 如 SNP 或 微 卫 星 标记 ， 估 计 亚 种 群 间 平 均 杂 合 性 大 小 与 整个 种 群 平均 
杂 合 性 大 小 的 差异 CF, -(H,-H,JH,. RP Hi 代表 整个 种 群 平均 异 质 性 的 大 
小 ，Hs 代 表 亚 种 群 间 平均 异 质 性 大 小 )。F 统计 量 反映 了 群体 结构 的 变化 ， 它 受 不 
同 因素 的 影响 ， 比 如 突变 ,遗传 漂 变 ， 近亲 交配 ， 选 择 作用 或 Wahlund 效应 ( 指 一 
个 种 群 中 由 于 亚 种 群 的 结构 导致 的 异 质 性 的 下 降 )。 在 中 性 进化 条 件 下 ，F 统计 量 
的 大 小 主要 决定 于 遗传 漂 变 和 迁移 等 因素 的 影响 ， 如 果 种 群 中 一 个 等 位 基因 因为 
对 于 特定 生境 的 适合 度 较 高 而 经 历 适应 性 选择 ， 那 么 其 频率 的 升 高 会 增 大 种 群 分 
WKF, RRE F 统计 量 上 就 是 有 较 高 的 Fsr 值 (0<=Fsr<=1，Fsr 为 1 表示 亚 种 群 
间 存 在 明显 的 种 群 分 化 )。 
2. 基于 种 内 多 态 和 种 间 分 歧 度 的 检测 方法 

按照 中 性 进化 假说 的 假设 ， 随 机 遗传 漂 变 是 进化 的 主要 动力 ， 因 此 种 内 PNA 
多 态 性 与 种 间 DNA 分 歧 度 的 进化 速率 应 该 一 致 。 如 果 种 内 多 态 性 和 种 间 分 歧 度 之 
间 存 在 显著 的 偏差 ， 表 明 种 群 进化 受到 了 其 他 因素 的 影响 ， 暗 示 了 选择 作用 的 存 
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在 。 
2.1. McDonald 和 Kreitman (МК) 16 

MK 检验 的 原理 是 : 在 无 选择 作用 的 中 性 条 件 下 ， 所 研究 基因 的 种 内 的 同 义 、 
非 同 义 突 变 应 与 种 间 同 义 、 非 同 义 突 变 成 正比 。 反 之 ， 则 推翻 零 假设 ， 即 基因 在 
不 同 物种 中 受到 了 选择 的 作用 。MK 检 验 思路 简洁 ， 计 算 简单 ， 但 在 检验 中 性 假说 
方面 却 很 有 说 服 力 。 而 且 该 检验 与 以 上 提 到 的 检验 相 比 ， 不 需要 很 多 假设 限 种 
重组 和 种 群 大 小 的 动态 对 检验 结果 没有 影响 McDonald 和 Kreitman(1991) 对 所 研究 
的 DNA 序 列 的 位 点 首先 进行 分 类 ， 以 区 分 种 内 差异 和 种 间 差 异 。 将 种 内 个 体 间 无 
碱 基 差 异 而 种 间 有 明显 碱 基 差异 的 位 点 ， 定 义 为 固定 位 点 (fixed site)， 作 为 种 间 差 
异 的 标志 。 将 种 内 个 体 间 有 碱 基 差异 的 位 点 , 定义 为 多 态 性 位 点 (polymorphic site), 
作为 种 内 多 态 性 的 标志 。 分 辨 出 样本 的 多 态 位 点 和 固定 位 点 之 后 ， 将 各 位 点 上 的 
突变 再 按 同 义 突变 位 点 和 错 义 突变 位 点 加 以 区 分 。 按 照 MK 检 验 的 原理 ， 在 中 性 条 
件 下 : 
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Ебу) _ E(n,) 
E(s,) E(s,) 
式 中 代表 既是 非 同 义 突变 位 点 又 是 固定 位 点 的 位 点 数 ，sy 代 表 既 是 同 义 突变 位 点 
又 是 固定 位 点 的 位 点 数 ，n, 代 表 既 是 非 同 义 突 变 位 点 又 是 多 态 位 点 的 位 点 数 ，s, 代 
表 既 是 同 义 突 变 位 点 又 是 多 态 位 点 的 位 点 数 。 
当选 择 作用 存在 于 不 同 物 种 中 时 ， 上 式 两 边 会 不 相等 。 此 时 ， 可 用 统计 学 的 
G-test 检 验 等 式 两 边 比例 差异 的 显著 性 。 若 显著 ， 也 就 是 说 物种 间 的 错 义 突变 数目 
大 于 基于 种 内 多 态 性 估计 得 到 的 期 望 值 ， 说 明基 因 在 物种 间 受 到 了 选择 作用 ОЧ 
琦 等 ，2004) 。 根 据 MK 检 验 的 原理 可 以 看 出 ， 其 应 用 的 范围 有 限制 ， 即 只 能 对 和 蛋 
白质 编码 区 进行 检测 ， 而 且 只 能 利用 DNA 序 列 的 数据 。 MK 检验 可 以 利用 DnaSP 软 
件 计算 。 
2.2. HKA 测 验 
该 检验 方法 基于 的 原理 与 MK 检验 相近 , 但 运用 的 是 统计 学 的 卡 方 (x? ) 检验 。 
即 计算 出 种 间 和 种 内 差异 的 卡 平方 和 ， 再 检验 实验 结果 是 否 与 中 性 条 件 下 的 期 户 
值 吻合 ， 所 以 在 统计 学 上 也 被 称 为 吻合 度 检验 (goodness of fit test) 。 
假设 Kj 代表 种 1 内 第 i 座位 DNA 序 列 的 分 离 位 点 数目 ，Kz 代 表 种 2 内 第 ;座位 
DNA 序 列 的 分 离 位 点 数目 ，D; 代 表 种 1 和 种 2 间 第 i 座位 序列 的 碱 基 差 异 数 。 将 三 者 
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的 卡 平方 和 相 加 得 到 : 


2 1 К, ін Е(К,)Р (К,, -Е(К,, УР LD, — E(D, Эр 
2-2 V(K,) e» V(K,,) "à V(D,) 


HKA 检 验 对 数据 的 要 求 比 较 高 。 计 算 K 时 需要 有 两 个 物种 ， 并 需要 有 两 个 或 两 
个 以 上 座位 的 DNA 数 据 。 其 次 该 检验 要 求 所 研究 种 群 大 小 保持 恒定 不 变 ， 座 位 间 
无 连锁 。〔 周 琦 等 ，2004) 

目前 已 有 很 多 工作 利用 HKA 检 验 检 测 正 向 选择 的 信号 ,而 且 得 到 许多 可 信 的 结 
Ж (Yamasaki et al. 2007; Zhao et al. 2008) ,表明 HKA 检 验 是 一 种 比较 有 效 的 方法 。 
基于 多 位 点 的 HKA 检 验 (Multi-locus НКА test) 增加 了 参照 位 点 的 数目 , 使 受 检验 
位 点 与 参照 位 点 的 差异 更 能 反映 非 随机 的 差异 信息 ， 检 测 结果 更 加 可 靠 。 比 如 我 
们 在 对 中 国 糯 玉 米 群体 中 的 淀粉 代谢 途径 进行 驯化 信号 的 调查 时 〈Fan et al. 2009) 
利用 了 多 位 点 的 HKA 检 验 的 方法 , 选择 了 6 个 经 证 实在 玉米 群体 中 进化 上 是 中 性 的 
即 不 受 选择 作用 影响 的 位 点 作为 参照 位 点 ， 通 过 比较 待 检测 位 点 位 点 的 种 内 多 态 
和 种 间 差 异 是 否 跟 参照 位 点 存在 显著 的 统计 差异 来 判断 该 位 点 是 否 存在 选择 作 
用 。 多 位 点 的 HKA 检 验 可 以 通过 Hey Lab 开 发 的 软件 来 计算 ， 主 要 包括 SITES 和 
HKA 两 个 软件 (http://genfaculty.rutgers.edu/hey/software )， 首 先 通过 SITES 得 到 每 
个 位 点 用 于 HKA 检 验 计算 的 输入 信息 ， 然 后 利用 HKA 比 较 参照 位 点 和 待 检测 位 点 
的 差异 ， 通 过 模拟 构建 分 布 给 出 检验 的 统计 显著 值 。 

3. 基于 种 间 分 歧 度 的 检测 方法 
3.1. Ka/Ks 测验 (7 测验 ) 

自然 界 中 发 生 的 很 多 非 同 义 突变 都 是 有 害 突 变 。 在 净化 选择 的 作用 下 这 些 位 点 
的 碱 基 蔡 换 率 比较 低 。 假 设 K. 为 非 同 义 突变 速率 ,及 ,为 同 义 突变 速率 。 由 于 同 义 突 
变 不 改变 氨基 酸 序 列 ， 因 此 可 假定 同 义 突变 为 中 性 突变 。 在 中 性 条 件 下 ，K/K, 期 
望 值 为 1。 大 部 分 情况 下 ，DNA 序 列 的 Ks/K, 值 由 于 净化 选择 作用 而 小 于 1。 但 当下 
向 选择 作用 存在 时 ， 某 一 受 正 向 选择 作用 的 等 位 基因 的 Ks/K, 将 升 高 ， 其 至 显著 大 
于 1。 这 时 可 通过 Z 检 验 ( 单 侧 检 验 ) 来 判断 Ks 和 K, 之 间 是 否 存在 显著 差异 ， 若 Ki 显 
著 大 于 K,， 即 为 正 辣 选 择 的 标志 。 计 算 K& 和 KK, 的 方法 有 三 类 : 以 Nei-Gojobori 为 代 
表 的 进化 通路 法 (Evolutionary Pathway Methods, Nei and Gojobori, 1986) ， 以 
Li-Wu-Luo 为 代表 的 基于 Kimura 双 参数 模型 的 方法 (Methods Basedon Kimura's 
2-Parameter Model, Li et al, 1985) ， 和 以 Yang 的 密码 子 替 代 模 型 为 代表 的 最 大 似 然 
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iX (Yang апа Bielawski, 2000) 。 其 中 后 两 种 方法 比较 常用 ，Yang 的 方法 可 以 通过 
PAML 软 件 包 来 计算 Chttp://abacus.gene.ucl.ac.uk/software/paml.html) 。 通 过 上 述 
方法 计算 出 Ko 和 有 后， 构建 Z 检 验 : 








К-К 
Z-————— (Nei and Kumar, 2002) 


УСК, - K) 

如 果 得 到 显著 的 统计 检验 结果 ， 表 明 该 位 点 存在 选择 作用 。 ( 周 琦 等 ，2004) 
4. ИН (Coalescent simulation, CS) 

当代 作物 在 驯化 过 程 中 经 历 了 驯化 瓶颈 (domestication bottleneck) WEH, Ж 
有 颈 效 应 导致 栽培 群体 相对 于 祖先 种 整体 遗传 多 态 性 的 降低 而 选择 作用 往往 只 针对 
某 个 或 几 个 特定 的 座位 。 因 此 可 以 构建 作物 的 驯化 瓶颈 效应 的 模型 (图 5) ， 包 括 祖 
先 群 体 大 小 、 瓶 颈 效 应 的 大 小 《经 历 瓶 颈 效 应 的 群体 大 小 与 瓶颈 效应 持续 时 间 的 
比率 ) 、 重 组 率 等 参数 。 在 中 性 进化 条 件 下 ， 该 模型 的 参数 可 以 通过 未 受到 选择 
作用 的 位 点 用 模拟 的 方法 进行 确定 : 如 果 对 于 几 个 中 性 进化 的 位 点 ， 与 其 有 共同 
祖先 的 野生 种 《未 经 历 瓶 颈 效应 ) 在 经 过 驯化 瓶颈 效应 的 模拟 后 ， 其 群体 遗传 参 
数 的 模拟 值 与 该 位 点 在 栽培 群体 中 的 观察 值 在 统计 检验 上 一 致 ， 表 明 所 选 参数 符 
合 实际 的 驯化 过 程 ， 从 而 选择 该 模型 用 于 待 检测 位 点 的 检验 。 然 后 计算 在 该 模型 
下 待 检测 位 点 的 野生 群体 经 历 此 强度 的 驯化 瓶颈 后 ， 群 体 遗 传 参数 的 模拟 值 与 栽 
培 群体 的 观察 值 是 否 具 有 统计 上 的 一 致 性 ， 以 分 离 位 点 为 例 ， 如 果 栽 培 群体 内 的 
观察 到 的 分 离 为 点 显著 低 于 通过 模拟 得 到 的 分 离 位 点 数 ， 或 位 于 通过 模拟 得 到 的 
分 离 位 点 分 布 曲线 的 置信 区 间 外 ， 表 明 该 位 点 除了 经 历 驯 化 瓶颈 效应 外 ， 还 经 受 
了 其 他 作用 的 影响 ， 上 暗示 了 该 位 点 可 能 受到 了 选择 作用 的 影响 。 
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图 5. Eyre-Walkeretal. 在 调查 玉米 驯化 过 程 中 构建 的 驯化 瓶颈 模型 (Eyre-Walker et al. 1998). 
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5 复合 检验 

在 各 种 检验 正 选择 的 统计 量 中 ， 都 有 各 自 的 优势 或 劣势 ， 例 如 Fay 和 Wu Hi 
验 是 基于 高 频 突变 丰 度 的 检验 ， 它 能 够 比较 特异 性 地 检验 正 向 选择 ， 而 受 群 体 历 
史 和 背景 选择 的 干扰 较 少 ， 但 是 它 只 能 检测 到 刚 固定 不 久 的 正 向 选择 ， 因 为 高 频 
突变 将 随 着 时 间 流 逝 很 快 因为 随机 漂 变 作用 而 被 固定 。Tajima’s D 在 检验 正 向 选择 
的 同时 容易 受到 群体 历史 和 背景 选择 的 干扰 ， 但 是 Tajima’s D 所 检验 的 低频 突变 丰 
度 的 信号 能 够 在 选择 发 生 位 点 被 固定 后 持续 较 长 一 段 时 间 。 一 个 比较 容易 想到 的 
方法 就 是 同时 利用 两 种 或 多 种 检验 方法 , 使 它们 的 优 缺 点 得 以 互补 ， 从 而 能 够 较 
特异 性 地 检验 正 选择 。 

Zeng (2006) 提出 的 DH 检 验 就 是 直接 结合 了 Tajima's D 和 一 个 修正 后 的 Fay 
апа Wu's 万 检验 ， 其 检验 正 向 选择 的 特异 性 能 力 相 对 较 高 ， 而 对 种 群 历史 等 其 他 因 
素 的 敏感 度 很 低 。 后 来 考虑 到 Ewens-Watterson 的 EW 检验 对 重组 率 的 变化 不 敏感 ， 
Zeng: (2007) 又 提出 了 Fay and Wu's 太 和 EW 结合 的 HEW 检 验 以 及 DH 和 EW 结合 
的 DHEW 检 验 ， 它们 相对 于 五 检 验 或 DH 检验 对 重组 率 更 不 敏感 。( 林 楼 等 ，2009) 
























































三 . 全 基因 组 扫描 及 假 阳 性 

基于 全 基因 组 重 测 序 的 基因 组 群体 遗传 学 (Hedges, 2000 and Black IV et al. 
2001) 是 大 规模 检测 正 向 选择 位 点 的 一 个 发 展 方向 ， 对 全 基因 组 的 重 测序 解决 了 
目前 研究 的 几 个 关键 问题 : 1. 单 位 点 的 正 向 选择 检测 研究 往往 要 求 对 所 研究 的 位 点 
有 一 个 预先 判断 ， 即 从 基因 功能 等 信息 上 判断 该 位 点 是 否 有 可 能 受到 正 向 选择 ， 
这 就 导致 以 往 的 研究 对 象 总 是 集中 在 特定 的 基因 或 特定 功能 以 及 代谢 通路 上 的 基 
因 ， 而 且 那 些 远 离 和 蛋白 编码 区 起 调节 作用 的 位 点 往往 不 能 得 到 很 好 的 研究 。 比 如 
在 Wang 等 (2007) 的 课题 组 对 水 稻 miRNA 的 群体 遗传 学 研究 中 发 现 ， 作 为 位 于 调 
控 网 络 上 游 在 基因 的 转录 及 转录 后 调控 过 程 中 起 作用 的 编码 miRNA 的 基因 也 检测 
到 了 正 向 选择 的 信号 。 而 全 基因 组 的 扫描 可 以 解决 掉 单位 点 研究 存在 的 偏 倚 ， 并 
对 非 编 码 区 也 可 以 进行 调查 ; 2. 判 断 一 个 位 点 是 否 受 到 正 向 选择 的 影响 往往 需要 排 
除 掉 种 群 历史 因素 的 影响 ， 由 于 种 群 历史 将 会 影响 整个 基因 组 的 DNA 变 异 模式 ， 
而 正 向 选择 只 是 特异 性 地 作用 于 某 个 座位 (Black IV et al. 2001) ， 因 此 对 于 多 座位 
检验 CMulti-locus test) 或 全 基因 组 扫描 的 方法 ， 那 些 与 普通 状态 的 座位 存在 明显 
差异 的 位 点 有 可 能 经 历 了 正 向 选择 。3. 由 于 全 基因 组 扫描 调查 了 大 量 的 位 点 ， 因 此 
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可 以 对 某 个 群体 遗传 参数 比如 DNA 多 态 性 、 变 异 频谱 、 连 锁 不 平衡 等 构建 分 布 ， 
即 经 验 分 布 (Empirical distribution〉， 将 位 于 分 布 尾 端的 异常 值 (Outlier) 看 做 受 
到 正 向 选择 的 候选 位 点 (图 6) 。 





1. Sample loci and calculate statistic (Т,) 
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2. Construct empirical distribution 


True 
Positive 


Proportion 


3. Identify "outlier" loci 
































图 6. 对 全 基因 组 进行 正 向 选择 信号 扫描 的 一 般 思路 (Akey, 2009) 。 














但 是 这 种 方法 基于 几 个 假设 ,而 这 些 假设 本 身 仍 存 在 一 些 问题 ， 首先， 目前 还 
没有 证 据 表 明 ， 位 于 分 布 尾 端的 座位 一 定 是 经 历 了 正 选择 的 座位 ， 也 没有 证 据 表 
明 经 历 了 正 选 择 的 座位 一 定 会 位 于 分 布 的 尾 端 。 在 经 过 全 基因 组 扫描 过 后 得 到 的 
座位 还 需要 继续 用 其 他 的 方法 进行 进一步 验证 。 第 二 步 检验 的 结果 可 能 会 存在 确 
认 偏 倚 ( Ascertainment bias, Thornton and Jensen, 2006) 如 果 不 考虑 这 个 问题 结果 将 
可 能 有 较 高 的 假 阳 性 。 另 外 ， 不 论 一 个 群体 是 否 经 历 了 正 向 选择 ， 这 样 计算 出 来 
的 统计 量 分 布 都 会 存在 一 个 尾部 ， 如 果 总 是 把 这 样 的 尾部 当 作 正 向 选择 的 信号 ， 
那么 将 可 能 产生 假 阳 性 。 而 且 这 个 尾 端 占 整个 分 布 的 比例 也 很 难 确定 ， 因 为 对 于 
非 平 衡 的 群体 ， 其 经 过 了 选择 连带 后 的 座位 ， 在 统计 量 分 布 尾 端 以 何 种 程度 出 现 
是 未 知 的 .为 了 解决 这 些 问题 , 一 些 修正 的 方案 也 逐渐 被 提出 来 .Thornton 等 (2006) 
提出 了 修正 确认 偏 倚 问 题 和 非 平 衡 群 体 问 题 的 方法 ， 指 出 如 果 不 考虑 确认 偏 倚 的 
问题 ， 那 么 第 二 步 检验 用 到 的 似 然 率 检 验方 法 可 能 会 受到 第 一 次 扫描 选择 出 来 座 
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位 的 影响 很 大 。 同 时 他 认为 在 选择 统计 量 的 时 候 ， 采 用 多 样 性 和 群体 分 化 程度 的 
统计 量 相对 于 选择 变异 谱 线 更 为 有 效 ， 而 且 较 大 的 基因 组 区 域 (2.5kb〉 对 于 确定 
正 向 选择 位 点 具有 更 大 的 功效 。 

在 全 基因 组 扫描 中 ， 因 为 选择 模式 的 不 同和 受 种 群 历史 的 干扰 ， 也 会 产生 假 阳 
性 问题 。 例 如 ， 如 果 选 择 作 用 在 隐 性 等 位 基因 而 不 是 共 显 性 等 位 基因 上 ， 或 者 选 
择 作 用 在 一 个 新 的 突变 而 不 是 一 个 已 经 存在 的 分 离 位 点 上 ， 或 者 选择 的 同时 经 历 
了 瓶颈 效应 ， 这 些 因素 都 可 能 会 增加 假 阳 性 (Teshima et al. 2006) 。 

此 外 , 对 于 基于 高 频 突变 的 Fay and Wu's 五 测验 以 及 基于 连锁 不 平衡 的 统计 量 ， 
都 会 在 正 选 择 完成 后 不 久 很 快 丧 失 其 特征 ， 因 为 高 频 突 变 会 很 快 被 固定 ， 而 连锁 
不 平衡 会 很 快 被 重组 打 断 (Przeworski, 2002) 。 如 果 采 用 基于 高 频 突变 变化 或 基于 
连锁 不 平衡 的 统计 量 来 进行 全 基因 组 的 扫描 ， 可 能 会 遗漏 一 些 可 能 经 历 过 正 选择 
的 座位 。 

另 一 个 策略 是 用 基因 组 水 平 的 多 态 位 点 估计 种 群 历史 变化 参数 , 再 将 估计 的 参 
数 作 为 原 假 设 (Null hypothesis)， 通 过 似 然 率 测试 (Likelihood ratio test) 来 检测 正 
向 选择 (Li and Stephan, 2006) СМ, 2009), НИ Н /УҮД ЭМ 1 

针对 目前 各 种 检测 正 向 选择 作用 的 方法 , 综合 利用 不 同 的 方法 对 提高 检测 的 有 
效 性 和 降低 假 阳 性 是 必须 的 。 因 此 ， 在 检测 正 向 选择 的 时 候 ， 可 能 需要 同时 考虑 
很 多 因素 ， 以 下 任何 一 个 因素 的 改变 都 可 能 使 得 预测 的 结果 发 生 偏差 

1. 种 群 历史 、 背 景 选择 和 平衡 选择 : 在 这 些 检验 方法 中 , 一 个 比较 普遍 的 问题 
是 如 何 区 分 自然 选择 和 种 群 历史 的 作用 。 一 个 思路 是 ， 自 然 选 择 往往 作用 于 某 些 
特定 的 座位 ， 而 种 群 历史 影响 整个 DNA 序列 。 如 果 某 个 区 域 具有 偏离 了 中 性 进化 
的 特征 ， 那 么 要 判断 这 是 因为 经 历 了 自然 选择 还 是 因为 种 群 历史 的 变化 ， 可 以 通 
过 将 待 检测 的 区 域 与 整个 DNA 序列 的 相关 特征 (例如 多 态 性 ) 进行 比较 ， 观 察 其 是 
否 和 普 吉 的 水 平一 致 ， 如 果 不 一 致 的 话 ， 那 么 其 可 能 是 经 历 了 上 自然 选择 ， 全 基因 
组 扫描 就 是 基于 这 样 一 个 思路 。 另 一 个 思路 就 是 尽量 考虑 自然 选择 所 形成 的 特异 
性 特征 ， 而 这 些 特征 往往 是 种 群 历史 因素 不 能 形成 的 ， 似 然 率 检验 就 是 这 样 实现 
的 。 

背景 选择 也 会 对 正 选择 有 一 定 的 干扰 作用 ,它们 都 能 产生 大 量 的 低频 突变 ,但 
是 正 选择 产生 相对 较 多 的 高 频 突 变 ， 这 个 特征 是 背景 选择 没有 的 。 

平衡 选择 在 刚 开始 的 时 候 和 正 选 择 很 类 似 ， 因 为 三 者 在 刚 开始 作用 于 一 个 新 
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的 突变 的 时 候 都 会 使 这 种 碱 基 的 频率 增加 ， 所 不 同 的 是 平衡 选择 最 终 使 新 的 突变 
和 原 有 碱 基 的 频率 达到 一 个 平衡 ， 而 正 选择 最 终 会 让 新 的 有 利 碱 基 蔡 换 掉 原 有 碱 
基 。 
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2. 选择 发 生 的 时 间 : 选择 是 正在 进行 中 的 、 刚 刚 完 成 的 还 是 已 经 完成 很 入 了 ， 
其 产生 的 结果 可 能 是 不 同 的 。 选 择 发 生 的 时 间 不 同 ， 所 造成 的 DNA 变异 模式 也 会 
有 所 不 同 。 正 选择 留 下 的 痕迹 可 能 随 着 时 间 的 推移 而 减弱 ， 并 且 不 同 的 痕迹 所 能 
持续 的 时 间 也 不 同 。 搭 载 效应 产生 的 高 频 突 变 和 连锁 不 平衡 就 会 很 快 被 随机 漂 变 
和 重组 效应 消除 ， 而 功能 ( 非 同 义 ) 突变 与 非 功能 ( 同 义 ) 突变 之 间 的 比例 改变 就 能 
够 持续 相当 长 的 时 间 。 在 时 间 上 ， 对 于 不 同 的 物种 来 说 ， 群 体 的 真实 历史 也 是 需 
要 考虑 的 一 个 因素 。 例 如 人 类 从 非洲 走出 的 时 间 大 约 在 50000 到 75000 年 前 ， 所 
以 在 人 类 的 DNA 数据 中 ， 如 果 考 察 从 亚 群 体 间 差 别 程度 (例如 Fy) 来 检验 人 类 走出 
非洲 后 是 否 经 历 了 某 些 自然 选择 ， 需 要 考虑 到 这 个 时 间 的 因素 。 

3. 选择 发 生 的 位 置 : 突变 率 和 重组 率 是 多 少 、 多 座位 检验 时 各 个 座位 的 突变 率 
和 重组 率 是 否 一 致 ， 都 可 能 会 影响 到 检验 的 准确 性 。 不 同 的 突变 率 和 重组 率 可 能 
会 使 得 检验 统计 量 的 临界 值 发 生变 化 ,而 多 座位 检验 时 ,如 果 各 个 座位 的 突变 率 
和 重组 率 不 一 致 , 那么 可 能 产生 假 阳性 的 结果 。 另 外 ， 在 一 个 位 点 发 生 了 选择 后 ， 
其 所 影响 的 周围 中 性 位 点 的 距离 也 是 需要 考虑 的 ， 距 离 越 远 ， 连 锁 程 度 越 低 ， 影 
响 越 弱 。 在 空间 上 ， 较 早期 的 检验 ， 例 如 Tajima D 检 验 ， 都 只 是 考虑 了 一 段 DNA 
序列 区 域内 是 否 经 历 了 自然 选择 ， 而 没有 考虑 自然 选择 直接 作用 的 位 点 ， 而 较 近 
期 的 似 然 率 检验 和 单 倍 体 连 锁 不 平衡 检验 ， 都 考虑 到 了 选择 直接 作用 位 点 及 其 周 
围 的 特异 性 变异 模式 (多 态 性 低谷 或 连锁 不 平衡 衰减 ) 所 以 相对 灵敏 度 更 高 ， 特 异 


性 更 强 。 例 如 , HS 检验 的 灵敏 度 与 LRH 差 不 多 , 但 是 远 远 高 于 Tajima D 等 检验 方法 

















































































































(Hanchard et al. 2006) 。 

4. 选择 作用 的 对 象 : 选择 作用 于 新 的 突变 还 是 已 经 存在 的 分 离 位 点 , 产生 的 结 
果 可 能 是 不 同 的 。 选 择 作用 于 一 个 新 的 突变 上 时 相对 比较 容易 检验 ， 而 如 果 选 择 
作用 于 已 经 存在 的 分 离 位 点 上 ， 那 么 有 的 统计 量 ， 例 如 H 和 基于 连锁 不 平衡 的 信 
号 就 不 是 特别 强烈 了 (Przeworski et al. 2002). 

5. 有 利 等 位 基因 的 类 型 : 有 利 等 位 基因 可 能 是 隐 性 的 ， 也 可 能 是 是 共 显 性 的 。 
隐 性 的 有 利 等 位 基因 产生 后 ， 比 起 共 显 性 的 有 利 等 位 基因 的 频率 上 升 的 速度 相对 
较 慢 ， 选 择 的 力量 相对 较 弱 ， 需 要 较 长 一 段 时 间 完 成 选择 CTeshima et al. 2006). 
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所 以 在 考虑 这 个 因素 的 时 候 实 际 上 也 是 在 考虑 时 间 上 的 因素 。 

6. 选择 的 强度 : 选择 的 强度 可 能 由 多 种 因素 决定 ， 上 面 提 到 的 等 位 基因 是 隐 性 
或 共 显 性 也 属于 影响 选择 强度 的 一 种 因素 。 选 择 强 度 最 根本 还 是 取决 于 自然 环境 
对 表 型 的 影响 能 力 。 选 择 强 度 越 强 ， 选 择 所 经 历 的 时 间 越 短 。 

7. 单个 选择 还 是 多 次 选择 : 在 同一 个 座位 只 发 生 了 一 次 选择 事件 还 是 多 次 , 也 
会 造成 结果 的 不 同 。 如 果 同 一 个 座位 经 历 了 多 次 选择 事件 ， 那 么 在 全 基因 组 扫描 
h, H 检验 或 基于 连锁 不 平衡 的 统计 量 就 不 会 表现 出 那么 明显 的 特异 性 了 
(Przeworski et al. 2002)。( 林 楼 等 ，2009) 



















































































四 . 研究 案例 

下 面 根据 我 们 近期 对 中 国 糯 玉 米 淀 粉 代谢 途径 的 研究 说 明 以 上 选择 检测 方法 
的 应 用 。 我 们 利用 糯 玉 米 群 体 材料 和 多 种 检测 正身 选择 的 中 性 检验 方法 (Tajima's D; 
Fu and 14% D* and Е“, KHA; CS; Fst), 对 尝 粉 代谢 途径 中 的 知 干 关键 基因 进行 了 分 
析 (Fan et al. 2008; Fan et al. 2009). Whitt & (2002) 以 普通 玉米 为 遗传 材料 对 淀 
粉 合成 代谢 途径 的 六 个 关键 基因 shl. sh2. bt2. ael. sul. их! 做 了 研究 。 研 究 
结果 表明 bi2. ael. sul 存在 明显 的 受到 正 向 选择 的 证 据 ， 然 而 作为 控制 直 链 淀粉 
合成 的 关键 基因 ，wx7 并 没有 检测 到 受到 正 向 选择 的 信号 。 而 糯 玉 米 与 普通 玉米 的 
一 个 重要 区 别 便 是 其 表 观 直 链 淀粉 含量 较 低 (<5%)。 基于 初步 对 30 个 糯 玉 米 材料 
的 Waxy 基因 位 点 研究 (Fan et al. 2008)， 我 们 发 现在 中 国 糯 玉米 群体 中 ， 相 对 于 
中 性 位 点 Adhl, Waxy 基因 的 遗传 多 态 性 下 降 了 三 到 四 倍 ， 而 且 两 个 中 性 检验 
Tajima’s D 和 Fu and 14% D* and F* 也 都 检测 到 了 显著 的 定 同 选 择 的 信号 。 在 普通 
玉米 中 遗传 多 态 性 并 没有 显著 的 下 降 , 中 性 检验 的 结果 也 不 显著 。Olsen 等 (2006) 
在 糯稻 中 发 现 Waxy 基因 位 点 存在 明显 的 选择 连带 效应 , 表明 强烈 的 选择 作用 对 该 
座位 有 显著 的 影响 。 我们 同样 调查 了 糯 玉 米 群体 中 Waxy 基因 位 点 是 否 存在 选择 连 
带 效应 。 分 别 对 Waxy 基因 位 点 上 下 游 的 基因 进行 了 群体 遗传 学 的 调查 ,结果 表明 
在 Waxy 基因 位 点 上 游 基 因 的 遗传 多 态 性 也 维持 了 很 低 的 水 平 , 表明 选择 连带 效应 
的 影响 范围 至 少 延 续 到 Waxy 基因 位 点 上 游 50Kb 的 位 置 。 

为 了 进一步 了 解 糯 玉米 群体 中 Waxy 基因 位 点 受到 正 向 选择 后 整个 淀粉 代谢 途 
径 的 进化 情况 ， 我 们 对 Whit 等 研究 的 六 个 关键 基因 在 糯 玉 米 中 进行 了 群体 调查 
(Fan et al. 2009)。 核 背 酸 多 态 性 的 结果 表明 ， 相 比较 其 他 位 点 ，Wzxy 基因 位 点 多 
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态 性 与 普通 玉米 相 比 有 显著 的 下 降 (24.9 1%). Tajima's D. НКА. CS 检验 的 结果 
一 致 表明 Waxy 基因 位 点 受到 了 强烈 的 正 向 选择 。 值 得 说 明 的 是 CS 检验 。 由 于 
Tajima's D 和 НКА 检验 均 是 以 中 性 进化 模型 为 前 体 假设 ， 从 而 不 能 排除 种 群 历史 
对 检测 结果 造成 的 影响 。 根 据 以 往 普通 玉米 的 驯化 瓶颈 效应 的 研究 ， 普 通 玉米 驯 
化 瓶颈 效应 的 强度 〈 驯 化 瓶颈 期 间 群 体 大 小 与 驯化 瓶颈 持续 时 间 的 比值 ) 约 为 
2.0-4.5 (Zhao et al. 2008; ТепаШоп et al. 2004)。 而 中 国 糯 玉 米 从 明 朝 由 北美 洲 引 
入 我 国 ， 相 对 于 普通 玉米 存在 更 为 强烈 的 驯化 瓶颈 效应 ， 因 此 我 们 利用 糯 玉 米 的 
一 系列 群体 遗传 学 参数 进行 了 Coalescent simulation 检验 ， 从 而 排除 了 种 群 历史 对 
检测 选择 信号 的 影响 。 特定 群体 内 的 选择 效应 往往 产生 明显 的 种 群 分 化 的 信号 (Yu 
et al. 2008). Fst 检验 便 是 利用 种 群 内 不 同 亚 群 的 分 化 情况 来 检测 选择 的 信号 。 我 
们 以 四 个 中 性 基因 做 为 参照 ， 对 中 性 检验 检测 到 信号 的 几 个 基因 Cael. Ы2. wx) 
通过 bootstrap 获得 了 其 Е 统计 量 的 频率 分 布 。 结 果 表 明 Waxy 基因 位 点 F 统计 量 
明显 偏向 于 1 $4322 Kolmogorov-Smirnov 检验 ， 已 < 2.2 X109. #89 Waxy 基因 
位 点 上 糯 玉 米 群 体 和 普通 玉米 群体 显著 的 分 化 信号 ， 而 其 他 位 点 并 没有 检测 到 明 
显 的 分 化 证 据 。 

以 上 研究 结果 表明 ,作物 突变 等 原因 导致 的 基因 型 变异 而 引起 新 的 表 型 ,会 由 
于 后 续 的 驯化 或 遗传 改良 的 影响 而 在 群体 中 积累 ， 表 现 为 强烈 的 正 向 选择 的 信号 ， 
并 可 能 使 一 个 代谢 途径 的 选择 情况 发 生 改变 。 从 分 子 水平 上 讲 ， 一 个 代谢 途径 中 
受 选 择 靶 标的 改变 会 导致 一 个 重要 的 农艺 性 状 的 迅速 积累 从 而 获得 携带 我 们 目标 
性 状 的 品种 。 



































































































































小 结 

分 子 群体 遗传 学 是 研究 种 群 结构 特征 的 学 科 , 复杂 的 进化 历程 在 物种 的 基因 组 
上 留 下 了 不 同 的 印迹 。 受 正 向 选择 作用 的 座位 由 于 往往 跟 对 特定 的 生境 的 适应 、 
新 功能 的 获得 、 物 种 的 进化 息息相关 ， 因 此 如 何 利 用 不 同方 法 检测 受 正 向 选择 作 
用 的 位 点 是 群体 遗传 学 一 个 非常 重要 的 研究 内 容 。 中 性 进化 理论 坚实 的 数理 统计 
基础 为 这 一 方向 提供 了 强大 的 工具 ， 并 发 展 出 了 各 种 具有 严谨 的 理论 假设 的 检验 
方法 ， 统 称 为 中 性 检验 方法 。 不 同方 法 是 根据 选择 对 群体 遗传 参数 产生 的 不 同方 
面 的 影响 而 构建 的 ， 比 如 遗传 多 态 性 的 降低 、 遗 传 变异 谱 线 的 变化 、 选 择 连 带 效 
应 、 连 锁 不 平衡 的 增加 等 ， 这 些 方法 本 里 基于 一 定 的 假设 ， 如 果实 际 情况 与 这 些 
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假设 相 背离 的 时 候 ， 这 些 方法 可 能 会 产生 假 阳 性 的 结果 。 伴 随 着 测序 技术 的 发 展 ， 
基于 全 基因 组 扫描 的 群体 基因 组 学 成 为 目前 研究 的 一 个 趋势 ， 由 于 基于 单位 点 的 
正 向 选择 位 点 检测 存在 明显 的 缺陷 ， 因 此 基于 全 基因 组 的 受 正 向 选择 位 点 扫描 无 
论 从 功效 上 还 是 检测 的 有 效 性 都 有 明显 的 改进 。 当 然 ， 全 基因 组 扫描 仍然 存在 一 
些 问 题 ， 这 些 需 要 进一步 的 研究 来 提高 检测 的 效率 并 降低 假 阳 性 的 比例 。 

在 未 来 的 发 展 方向 上 ， 由 于 越 来 越 多 DNA 数据 的 积累 ， 人 们 将 根据 具体 的 数 
据 应 用 相应 的 检验 方法 来 推测 各 种 历史 事件 的 发 生 。 男 一 方面 ， 由 于 考虑 的 因素 
越 来 越 多 ， 各 种 模型 将 会 越 来 越 复 杂 ， 各 种 检验 将 会 在 灵敏 度 和 特异 性 上 不 断 地 
努力 ， 这 个 领域 内 的 理论 发 展 也 将 越 来 越 具有 挑战 性 。 
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附 孙 :生物 信息 学 主要 英文 术语 及 释义 


Abstract Syntax Notation (ASN.I) (NCBI 发 展 的 许多 程序 ， 如 显示 蛋白 质 三 维 
结构 的 Cn3D 等 所 使 用 的 内 部 格式 ) 

А language that is used to describe structured data types formally, Within 
bioinformatits,it has been used by the National Center for Biotechnology 
Information to encode sequences, maps, taxonomic information, molecular 
structures, and biographical information in such a way that it can be easily 
accessed and exchanged by computer software. 

Accession number ( 记录 号 ) 

A unique identifier that is assigned to a single database entry for a DNA or 
protein sequence. 

Affine gap penalty ( 一 种 设置 空位 罚 分 策略 ) 

А дар penalty score that is а linear function of дар length, consisting of a дар 
opening penalty and a gap extension penalty multiplied by the length of the 
gap. Using this penalty scheme greatly enhances the performance of dynamic 
programming methods for sequence alignment. See also Gap penalty. 
Algorithm (ЖЖ) 

A systematic procedure for solving a problem in a finite number of steps, 
typically involving a repetition of operations. Once specified, an algorithm can 
be written in a computer language and run as a program. 

Alignment ( 联 配 / 比 对 / 联 配 ) 

Refers to the procedure of comparing two or more sequences by looking for a 
series of individual characters or character patterns that аге in the same order 
in the sequences. Of the two types of alignment, local and global, a local 
alignment is generally the most useful. See also Local and Global alignments. 
Alignment score ( 联 配 / 比 对 / 联 配 值 ) 

An algorithmically computed score based on the number of matches， 
substitutions, insertions, апа deletions (gaps) within an alignment. Scores for 
matches and substitutions Are derived from a scoring matrix such as the 
BLOSUM and PAM matrices for proteins, and aftine gap penalties suitable for 
the matrix are chosen. Alignment scores are in log odds units, often bit units 
(log to the base 2). Higher scores denote better alignments. See also 
Similarity score, Distance in sequence analysis. 

Alphabet ( 字母 表 ) 

The total number of symbols in a sequence-4 for DNA sequences and 20 for 
protein sequences. 

Annotation (注释 ) 

The prediction of genes in a genome, including the location of 
protein-encoding genes, the sequence of the encoded proteins, any significant 
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matches to other Proteins of known function, and the location of 
RNA-encoding genes. Predictions are based on gene models; e.g., hidden 
Markov models of introns and exons in proteins encoding genes, and models 
of secondary structure in RNA. 

Anonymous FTP ( 匿名 FTP ) 

When a FTP service allows anyone to log in, it is said to provide anonymous 
FTP ser-vice. А user сап log іп to ап апопутоив FTP server by typing 
anonymous as the user name and his E-mail address as a password. Most 
Web browsers now negotiate anonymous FTP logon without asking the user 
for a user name and password. See also FTP. 

ASCII 

The American Standard Code for Information Interchange (ASCII) encodes 
unaccented letters a-z, A-Z, the numbers O-9, most punctuation marks, space, 
and a set of control characters such as carriage return and tab. ASCII 
specifies 128 characters that are mapped to the values O-127. ASCII tiles are 
commonly called plain text, meaning that they only encode text without extra 
markup. 

BAC clone ( 细菌 人 工 染 色 体 克隆 ) 

Bacterial artificial chromosome vector carrying a genomic DNA insert, typically 
100-200 kb. Most of the large-insert clones sequenced in the project were 
BAC clones. 

Back-propagation ( 反 向 传输 ) 

When training feed-forward neural networks, a back-propagation algorithm 
can be used to modify the network weights. After each training input pattern is 
fed through the network, the network's output is compared with the desired 
output and the amount of error is calculated. This error is back-propagated 
through the network by using an error function to correct the network weights. 
See also Feed-forward neural network. 

Baum-Welch algorithm (Baum-Welch 算 法 ) 

An expectation maximization algorithm that is used to train hidden Markov 
models. 

Baye's rule ( 贝 叶 斯 法 则 ) 

Forms the basis of conditional probability by calculating the likelihood of an 
event occurring based on the history of the event and relevant background 
information. In terms of two parameters A and B, the theorem is stated in an 
equation: The condition-al probability of A, given B, P(AIB), is equal to the 
probability of A, P(A), times the conditional probability of B, given A, P(BIA), 
divided by the probability of B, P(B). P(A) is the historical or prior distribution 
value of A, P(BIA) is a new prediction for B for a particular value of A, and P(B) 
is the sum of the newly predicted values for B. P(AIB) is a posterior probability, 
representing a new prediction for A given the prior knowledge of A and the 
newly discovered relationships between A and B. 

Bayesian analysis ( 贝 叶 斯 分 析 ) 

A statistical procedure used to estimate parameters of an underlying 
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distribution based on an observed distribution. See also Baye's rule. 

Biochips (生物 芯片 ) 

Miniaturized arrays of large numbers of molecular substrates, often 
oligonucleotides, in a defined pattern. They are also called DNA microarrays 
and microchips. 

Bioinformatics (生物 信息 学 ) 

The merger of biotechnology and information technology with the goal of 
revealing new insights and principles in biology. /The discipline of obtaining 
information about genomic or protein sequence data. This may involve 
similarity searches of databases, comparing your unidentified sequence to the 
sequences in a database, or making predictions about the sequence based on 
current knowledge of similar sequences. Databases are frequently made 
publically available through the Internet, or locally at your institution. 

Bit score ( 二进制 值 / Bit 值 ) 

The value S' is derived from the raw alignment score S іп which the statistical 
properties of the scoring system used have been taken into account. Because 
bit scores have been normalized with respect to the scoring system, they can 
be used to compare alignment scores from different searches. 

Bit units 

From information theory, a bit denotes the amount of information required to 
distinguish between two equally likely possibilities. The number of bits of 
information, AJ, required to convey a message that has A4 possibilities is log2 
М = N bits. 

BLAST (基本 局 部 联 配 搜索 工具 ， 一 种 主要 数据 库 搜索 程序 ) 

Basic Local Alignment Search Tool. A set of programs, used to perform fast 
similarity searches. Nucleotide sequences can be compared with nucleotide 
sequences in a database using BLASTN, for example. Complex statistics are 
applied to judge the significance of each match. Reported sequences may be 
homologous to, or related to the query sequence. The BLASTP program is 
used to search a protein database for a match against a query protein 
sequence. There are several other flavours of BLAST. BLAST2 is a newer 
release of BLAST. Allows for insertions or deletions in the sequences being 
aligned. Gapped alignments may be more biologically significant. 

Block (蛋白 质 家 族 中 保守 区 域 的 组 块 ) 

Conserved ungapped patterns approximately 3-60 amino acids in length in a 
set of related proteins. 

BLOSUM matrices ( 模块 替换 矩阵 ， 一 种 主要 替换 矩阵 ) 

An alternative to PAM tables, BLOSUM tables were derived using local 
multiple alignments of more distantly related sequences than were used for 
the PAM matrix. These are used to assess the similarity of sequences when 
performing alignments. 

Boltzmann distribution (Boltzmann 分 布 ) 

Describes the number of molecules that have energies above a certain level, 
based on the Boltzmann gas constant and the absolute temperature. 
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Boltzmann probability function(Boltzmann 概 率 函 数 ) 

See Boltzmann distribution. 

Bootstrap analysis 

A method for testing how well a particular data set fits а model. For example, 
the validity of the branch arrangement in a predicted phylogenetic tree can be 
tested by resampling columns in a multiple sequence alignment to create 
many new alignments. The appearance of a particular branch in trees 
generated from these resampled sequences can then be measured. 
Alternatively, a sequence may be left out of an analysis to deter-mine how 
much the sequence influences the results of an analysis. 

Branch length (分 支 长 度 ) 

In sequence analysis, the number of sequence changes along а particular 
branch of a phylogenetic tree. 

CDSorcds (编码 序列 ) 

Coding sequence. 

Chebyshe, d inequality 

The probability that a random variable exceeds its mean is less than or equal 
to the square of 1 over the number of standard deviations from the mean. 
Clone (Z) 

Population of identical cells or molecules (e.g. DNA), derived from a single 
ancestor. 

Cloning Vector (克隆 载体 ) 

A molecule that carries a foreign gene into a host, and allows/facilitates the 
multiplication of that gene in a host. When sequencing a gene that has been 
cloned using a cloning vector (rather than by PCR), care should be taken not 
to include the cloning vector sequence when performing similarity searches. 
Plasmids, cosmids, phagemids, YACs and PACs are example types of cloning 
vectors. 

Cluster analysis (22224) 

A method for grouping together a set of objects that are most similar from a 
larger group of related objects. The relationships are based on some criterion 
of similarity or difference. For sequences, a similarity or distance score or a 
statistical evaluation of those scores is used. 

Cobbler 

A single sequence that represents the most conserved regions in a multiple 
sequence alignment. The BLOCKS server uses the cobbler sequence to 
perform a database similarity search as a way to reach sequences that are 
more divergent than would be found using the single sequences in the 
alignment for searches. 

Coding system (neural networks) 

Regarding neural networks, a coding system needs to be designed for 
representing input and output. The level of success found when training the 
model will be partially dependent on the quality of the coding system chosen. 
Codon usage 
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Analysis of the codons used in a particular gene or organism. 

COG ( Ë £ F| 3⁄ # ) 

Clusters of orthologous groups in a set of groups of related sequences in 
microorganism and yeast (S. cerevisiae). These groups are found by whole 
proteome comparisons and include orthologs and paralogs. See also 
Orthologs and Paralogs. 

Comparative genomics ( 比较 基因 组 学 ) 

A comparison of gene numbers, gene locations, and biological functions of 
genes in the genomes of diverse organisms, one objective being to identify 
groups of genes that play a unique biological role in a particular organism. 
Complexity (of an algorithm) (算法 的 复杂 性 ) 

Describes the number of steps required by the algorithm to solve a problem 
as a function of the amount of data; for example, the length of sequences to 
be aligned. 

Conditional probability (条 件 概率 ) 

The probability of a particular result (or of a particular value of a variable) 
given one or more events or conditions (or values of other variables). 
Conservation (保守 ) 

Changes at a specific position of an amino acid or (less commonly, DNA) 
sequence that preserve the physico-chemical properties of the original 
residue. 

Consensus ( 一 致 序列 ) 

A single sequence that represents, at each subsequent position, the variation 
found within corresponding columns of a multiple sequence alignment. 
Context-free grammars 

A recursive set of production rules for generating patterns of strings. These 
consist of a set of terminal characters that are used to create strings, a set of 
nonterminal symbols that correspond to rules and act as placeholders for 
patterns that can be generated using terminal characters, a set of rules for 
replacing nonterminal symbols with terminal characters, and a start symbol. 
Contig (#7|# &3H 9E 9l ) 

A set of clones that can be assembled into a linear order. A DNA sequence 
that overlaps with another contig. The full set of overlapping sequences 
(contigs) can be put together to obtain the sequence for a long region of DNA 
that cannot be sequenced in one run in a sequencing assay. Important in 
genetic mapping at the molecular level. 

CORBA (国际 对 象 管理 协作 组 制定 的 使 DOP 对 象 与 网 络 接口 统一 起 来 的 一 套 跨 
计算 机 、 操 作 系 统 、 程 序 语言 和 网 络 的 共同 标准 ) 

The Common Object Request Broker Architecture (CORBA) is ап open 
industry standard for working with distributed objects, developed by the Object 
Management Group. CORBA allows the interconnection of objects and 
applications regardless of computer language, machine architecture, or 
geographic location of the computers. 

Correlation coefficient (相关 系数 ) 
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А numerical measure, falling between - 1 and 1, of the degree of the linear 
relationship between two variables. A positive value indicates a direct 
relationship, a negative value indicates an inverse relationship, and the 
distance of the value away from zero indicates the strength of the relationship. 
A value near zero indicates no relationship between the variables. 
Covariation (in sequences) ( 共 变 ) 

Coincident change at two or more sequence positions in related sequences 
that may influence the secondary structures of RNA or protein molecules. 
Coverage (or depth) (#Ё ЕЁ) 

The average number of times a nucleotide is represented by a high-quality 
base in a collection of random raw sequence. Operationally, a 'high-quality 
base' is defined as one with an accuracy of at least 9996 (corresponding to a 
PHRED score of at least 20). 

Database ( 数据库 ) 

A computerized storehouse of data that provides a standardized way for 
locating, adding, removing, and changing data. See also Object-oriented 
database, Relational database. 

Dendogram 

A form of a tree that lists the compared objects (e.g., sequences or genes in a 
microarray analysis) in a vertical order and joins related ones by levels of 
branches extending to one side of the list. 

Depth (厚度 ) 

See coverage 

Dirichlet mixtures 

Defined as the conjugational prior of a multinomial distribution. One use is for 
predicting the expected pattern of amino acid variation found in the match 
state of a hid-den Markov model (representing one column of a multiple 
sequence alignment of proteins), based on prior distributions found in 
conserved protein domains (blocks). 

Distance in sequence analysis (序列 距离 ) 

The number of observed changes in an optimal alignment of two sequences, 
usually not counting gaps. 

DNA Sequencing (DNA 测序 ) 

The experimental process of determining the nucleotide sequence of a region 
of DNA. This is done by labelling each nucleotide (A, C, G or T) with either a 
radioactive or fluorescent marker which identifies it. There are several 
methods of applying this technology, each with their advantages and 
disadvantages. For more information, refer to a current text book. High 
throughput laboratories frequently use automated sequencers, which are 
capable of rapidly reading large numbers of templates. Sometimes, the 
sequences may be generated more quickly than they can be characterised. 
Domain (功能 域 ) 

Adiscrete portion of a protein assumed to fold independently of the rest of the 
protein and possessing its own function. 
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Dot matrix ( 点 标 和 矩阵 图 ) 

Dot matrix diagrams provide a graphical method for comparing two sequences. 
One sequence is written horizontally across the top of the graph and the other 
along the left-hand side. Dots are placed within the graph at the intersection of 
the same letter appearing in both sequences. A series of diagonal lines in the 
graph indicate regions of alignment. The matrix may be filtered to reveal the 
most-alike regions by scoring a minimal threshold number of matches within a 
sequence window. 

Draft genome sequence (基因 组 序列 草图 ) 

The sequence produced by combining the information from the individual 
sequenced clones (by creating merged sequence contigs and then employing 
linking information to create scaffolds) and positioning the sequence along the 
physical map of the chromosomes. 

DUST (一 种 低 复 杂 性 区 段 过 滤 程 序 ) 

A program for filtering low complexity regions from nucleic acid sequences. 
Dynamic programming (动态 规划 法 ) 

A dynamic programming algorithm solves a problem by combining solutions to 
sub-problems that are computed once and saved in a table or matrix. 
Dynamic programming is typically used when a problem has many possible 
solutions and an optimal one needs to be found. This algorithm is used for 
producing sequence alignments, given a scoring system for sequence 
comparisons. 

EMBL (欧洲 分 子 生 物 学 实验 室 ，EMBL 数据 库 是 主要 公共 核酸 序列 数据 库 之 
一 ) 

European Molecular Biology Laboratories. Maintain the EMBL database, one 
of the major public sequence databases. 

EMBnet (欧洲 分 子 生物 学 网 络 ) 

European Molecular Biology Network: http:/www.embnet.org/ was established 
in 1988, and provides services including local molecular databases and 
software for molecular biologists in Europe. There are several large outposts 
of EMBnet, including EXPASY. 

Entropy (Jj) 

From information theory, a measure of the unpredictable nature of a set of 
possible elements. The higher the level of variation within the set, the higher 
the entropy. 

Erdos and Renyi law 

In a toss of a "fair" coin, the number of heads in a row that can be expected is 
the logarithm of the number of tosses to the base 2. The law may be 
generalized for more than two possible outcomes by changing the base of the 
logarithm to the number of out-comes. This law was used to analyze the 
number of matches and mismatches that can be expected between random 
sequences as a basis for scoring the statistical significance of a sequence 
alignment. 


EST (表达 序列 标签 的 缩写 ) 
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See Expressed Sequence Тад 

Expect value (E) (ЕЕ) 

E value. The number of different alignents with scores equivalent to or better 
than S that are expected to occur in a database search by chance. The lower 
the E value, the more significant the score. In a database similarity search, the 
probability that an alignment score as good as the one found between a query 
sequence and a database sequence would be found in as many comparisons 
between random sequences as was done to find the matching sequence. In 
other types of sequence analysis, E has a similar meaning. 

Expectation maximization (sequence analysis) 

An algorithm for locating similar sequence patterns in a set of sequences. A 
guessed alignment of the sequences is first used to generate an expected 
scoring matrix representing the distribution of sequence characters in each 
column of the alignment, this pattern is matched to each sequence, and the 
scoring matrix values are then updated to maximize the alignment of the 
matrix to the sequences. The procedure is repeated until there is no further 
improvement. 

Exon (外 显 子 ) 

Coding region of DNA. See CDS. 

Expressed Sequence Tag (EST) (表达 序列 标签 ) 

Randomly selected, partial cDNA sequence; represents it's corresponding 
mRNA. dbEST is a large database of ESTs at GenBank, NCBI. 

FASTA (一 种 主要 数据 库 搜索 程序 ) 

The first widely used algorithm for database similarity searching. The program 
looks for optimal local alignments by scanning the sequence for small 
matches called "words". Initially, the scores of segments in which there are 
multiple word hits are calculated ("init1"). Later the scores of several 
segments may be summed to generate an "initn" score. An optimized 
alignment that includes gaps is shown in the output as "opt". The sensitivity 
and speed of the search are inversely related and controlled by the "k-tup" 
variable which specifies the size of a "word". (Pearson and Lipman) 

Extreme value distribution ( 极 值 分 布 ) 

Some measurements аге found to follow а distribution that has а long tail 
which decays at high values much more slowly than that found in a normal 
distribution. This slow-falling type is called the extreme value distribution. The 
alignment scores between unrelated or random sequences are an example. 
These scores can reach very high values, particularly when a large number of 
comparisons are made, as in a database similarity search. The probability of a 
particular score may be accurately predicted by the extreme value distribution, 
which follows a double negative exponential function after Gumbel. 

False negative ( 假 阴性 ) 

A negative data point collected in a data set that was incorrectly reported due 
to a failure of the test in avoiding negative results. 
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False positive ( 假 阳 性 ) 

A positive data point collected in a data set that was incorrectly reported due 
to a failure of the test. If the test had correctly measured the data point, the 
data would have been recorded as negative. 

Feed-forward neural network ( 反 向 传输 神经 网 络 ) 

Organizes nodes into sequence layers in which the nodes in each layer are 
fully connected with the nodes in the next layer, except for the final output 
layer. Input is fed from the input layer through the layers in sequence in a 
"feed-forward" direction, resulting in output at the final layer. See also Neural 
network. 

Filtering (window size) 

During pair-wise sequence alignment using the dot matrix method, random 
matches can be filtered out by using a sliding window to compare the two 
sequences. Rather than comparing a single sequence position at a time, a 
window of adjacent positions in the two sequences is compared and a dot, 
indicating a match, is generated only if a certain minimal number of matches 
occur. 

Filtering (过 滤 ) 

Also known as Masking. The process of hiding regions of (nucleic acid or 
amino acid) sequence having characteristics that frequently lead to spurious 
high scores. See SEG and DUST. 

Finished sequence ( 完成 序列 ) 

Complete sequence of a clone or genome, with an accuracy of at least 
99.99% and no gaps. 

Fourier analysis 

Studies the approximations and decomposition of functions using 
trigonometric polynomials. 

Format (file) (格式 ) 

Different programs reduire that information be specified to them in a formal 
manner, using particular keywords and ordering. This specification is a Ше 
format. 

Forward-backward algorithm 

Used to train a hidden Markov model by aligning the model with training 
sequences. The algorithm then refines the model to reduce the error when 
fitted to the given data using a gradient descent approach. 

FTP (File Transfer Protocol) (文件 传输 协议 ) 

Allows a person to transfer files from one computer to another across a 
network using an FTP-capable client program. The FTP client program can 
only communicate with machines that run an FTP server. The server, in turn, 
will make a specific portion of its tile system available for FTP access, 
providing that the client is able to supply a recognized user name and 
password to the server. 

Full shotgun clone ( 乌 枪 法 克隆 ) 

A large-insert clone for which full shotgun sequence has been produced. 
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Functional genomics ( 功能 基因 组 学 ) 

Assessment of the function of genes identified by between-genome 
comparisons. The function of a newly identified gene is tested by introducing 
mutations into the gene and then examining the resultant mutant organism for 
an altered phenotype. 

дар (空位 /间隙 /缺口 ) 

A space introduced into an alignment to compensate for insertions and 
deletions in one sequence relative to another To prevent the accumulation of 
too many gaps in an alignment, introduction of a gap causes the deduction of 
a fixed amount (the gap score) from the alignment score. Extension of the gap 
to encompass additional nucleotides or amino acid is also penalized in the 
scoring of an alignment. 

Gap penalty ( 空位 罚 分 ) 

А numeric score used in sequence alignment programs to penalize the 
presence of gaps within an alignment. The value of a gap penalty affects how 
often gaps appear in alignments produced by the algorithm. Most alignment 
programs suggest gap penalties that are appropriate for particular scoring 
matrices. 

Genetic algorithm ( 和 遗传 算法 ) 

A kind of search algorithm that was inspired by the principles of evolution. A 
population of initial solutions is encoded and the algorithm searches through 
these by applying a pre-defined fitness measurement to each solution, 
selecting those with the highest fitness for reproduction. New solutions can be 
generated during this phase by crossover and mutation operations, defined in 
the encoded solutions. 

Genetic map (3% 1#) 

A genome map in which polymorphic loci are positioned relative to one 
another on the basis of the frequency with which they recombine during 
meiosis. The unit of distance is centimorgans (cM), denoting a 196 chance of 
recombination. 

Genome (基因 组 ) 

The genetic material of an organism, contained in one haploid set of 
chromosomes. 

Gibbs sampling method 

An algorithm for finding conserved patterns within a set of related sequences. 
A guessed alignment of all but one sequence is made and used to generate a 
scoring matrix that represents the alignment. The matrix is then matched to 
the left-out sequence, and a probable location of the corresponding pattern is 
found. This prediction is then input into a new alignment and another scoring 
matrix is produced and tested on a new left-out sequence. The process is 
repeated until there is no further improvement in the matrix. 

Global alignment ( 整体 联 配 ) 

Attempts to match as many characters as possible, from end to end, in a set 
of two or 
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more sequences. 
Gopher (一 个 文档 发 布 系统 ， 允 许 检 索 和 显示 文本 文件 ) 

Graph theory ( #%) 

A branch of mathematics which deals with problems that involve a graph or 
network structure. A graph is defined by a set of nodes (or points) and a set of 
arcs (lines or edges) joining the nodes. In sequence and genome analysis， 
graph theory is used for sequence alignments and clustering alike genes. 
GSS (基因 综述 序列 ) 

Genome survey sequence. 

GUI ( 图形 用 户 界面 ) 

Graphical user interface. 

H (ЖАНЕ) 

H is the relative entropy of the target and background residue frequencies. 
(Karlin and Altschul, 1990). H can be thought of as a measure of the average 
information (in bits) available per position that distinguishes an alignment from 
chance. At high values of H, short alignments can be distinguished by chance, 
whereas at lower H values, a longer alignment may be necessary. (Altschul, 
1991) 

Half-bits 

Some scoring matrices are in half-bit units. These units are logarithms to the 
base 2 of odds scores times 2. 

Heuristic ( 启发 式 方法 ) 

А procedure that progresses along empirical lines by using rules of thumb to 
reach a solution. The solution is not guaranteed to be optimal. 

Hexadecimal system ( 1615] < Zi ) 

The base 16 counting system that uses the digits O-9 followed by the letters 
A-F. 

HGMP (人 类 基因 组 图 谱 计 划 ) 

Human Genome Mapping Project. 

Hidden Markov Model (HMM) ( 隐 蕊 尔 可 夫 模 型 ) 

In sequence analysis, a HMM is usually a probabilistic model of a multiple 
sequence alignment, but can also be a model of periodic patterns in a single 
sequence, representing, for example, patterns found in the exons of a gene. 
In a model of multiple sequence alignments, each column of symbols in the 
alignment is represented by a frequency distribution of the symbols called a 
state, and insertions and deletions by other states. One then moves through 
the model along a particular path from state to state trying to match a given 
sequence. The next matching symbol is chosen from each state, recording its 
probability (frequency) and also the probability of going to that particular state 
from a previous one (the transition probability). State and transition 
probabilities are then multiplied to obtain a probability of the given sequence. 
Generally speaking, a HMM is a statistical model for an ordered sequence of 
symbols, acting as a stochastic state machine that generates a symbol each 
time a transition is made from one state to the next. Transitions between 


135 


www. cab. z ju. edu. cn/cab/xueyuanxiashubumen/nx/bioinplant. htm 《生物 信息 学 札记 》 v 


states are specified by transition probabilities. 

Hidden layer (& ЖЕ) 

An inner layer within a neural network that receives its input and sends its 
output to other layers within the network. One function of the hidden layer is to 
detect covariation within the input data, such as patterns of amino acid 
covariation that are associated with a particular type of secondary structure in 
proteins. 

Hierarchical clustering (分 级 聚 类 ) 

The clustering or grouping of objects based on some single criterion of 
similarity or difference.An example is the clustering of genes in a microarray 
experiment based on the correlation between their expression patterns. The 
distance method used in phylogenetic analysis is another example. 

Hill climbing 

A nonoptimal search algorithm that selects the singular best possible solution 
at a given state or step. The solution may result in a locally best solution that 
is not a globally best solution. 

Homology ( 同 源 性 ) 

A similar component in two organisms (e.g., genes with strongly similar 
sequences) that can be attributed to a common ancestor of the two organisms 
during evolution. 

Horizontal transfer (水 平 转移 ) 

The transfer of genetic material between two distinct species that do not 
ordinarily exchange genetic material. The transferred DNA becomes 
established in the recipient genome and can be detected by a novel 
phylogenetic history and codon content com-pared to the rest of the genome. 
HSP (高 比值 片段 对 ) 

High-scoring segment pair. Local alignments with no gaps that achieve one of 
the top alignment scores in a given search. 

HTGS/HGT ( 高 通 量 基 因 组 序列 ) 

High-throughout genome sequences 

HTML (〈 超 文本 标识 语言 ) 

The Hyper-Text Markup Language (HTML) provides a structural description of 
a document using a specified tag set. HTML currently serves as the Internet 
lingua franca for describing hypertext Web page documents. 

Hyperplane 

A generalization of the two-dimensional plane to N dimensions. 

Hypercube 

A generalization of the three-dimensional cube to N dimensions. 

Identity (相同 性 /相同 率 ) 

The extent to which two (nucleotide or amino acid) sequences are invariant. 
Indel (插入 或 删除 的 缩 略语 ) 

An insertion or deletion in a sequence alignment. 

Information content (of a scoring matrix) 

A representation of the degree of sequence conservation in a column of a 
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scoring matrix representing an alignment of related sequences. It is also the 
number of questions that must be asked to match the column to a position in a 
test sequence. For bases, the max-imum possible number is 2, and for 
proteins, 4.32 (logarithm to the base 2 of the number of possible sequence 
characters). 

Information theory (信息 理论 ) 

A branch of mathematics that measures information in terms of bits, the 
minimal amount of structural complexity needed to encode a given piece of 
information. 

Input layer С X É ) 

The initial layer іп а feed-forward neural net. This layer encodes input 
information that will be fed through the network model. 

Interface definition language 

Used to define an interface to an object model in a programming language 
neutral form, where an interface is an abstraction of a service defined only by 
the operations that can be performed on it. 

Internet ( 因特网 ) 

The network infrastructure, consisting of cables interconnected by routers, 
that pro-vides global connectivity for individual computers and private 
networks of computers. A second sense of the word internet is the collective 
computer resources available over this global network. 

Interpolated Markov model 

A type of Markov model of sequences that examines sequences for patterns 
of variable length in order to discriminate best between genes and non-gene 
sequences. 

Intranet ( 内 部 网 ) 

Intron (e) 

Non-coding region of DNA. 

Iterative (反复 的 /迭代 的 ) 

A sequence of operations in a procedure that is performed repeatedly. 

Java ( 一 种 由 SUN Microsystem 开发 的 编程 语言 

К (BLAST 程序 的 一 个 统计 参数 ) 

A statistical parameter used in calculating BLAST scores that сап be thought 
of as a natural scale for search space size. The value K is used in converting 
а raw score ($) to a bit score (S"). 

K-tuple (4/4 ) 

Identical short stretches of sequences, also called words. 

lambda (à, BLAST 程序 的 一 个 统计 参数 ) 

A statistical parameter used in calculating BLAST scores that сап be thought 
of as a natural scale for scoring system. The value lambda is used in 
converting a raw score (S) to a bit score (57). 

LAN (局 域 网 ) 

Local area network. 

Likelihood ( 似 然 性 ) 
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The hypothetical probability that an event which has already occurred would 
yield a specific outcome. Unlike probability, which refers to future events, 
likelihood refers to past events. 

Linear discriminant analysis 

An analysis in which a straight line is located on a graph between two sets of 
data pointsin a location that best separates the data points into two groups. 
Local alignment ( 局 部 联 配 ) 

Attempts to align regions of sequences with the highest density of matches. In 
doing 50, опе or more islands of subalignments аге created іп the aligned 
sequences. 

Log odds score ( 概率 对 数值 ) 

Тһе logarithm of an odds score. See also Odds score. 

Low Complexity Region (LCR) (ЇЕ Ze E X Rt) 

Regions of biased composition including homopolymeric runs, short-period 
repeats, and more subtle overrepresentation of one or a few residues. The 
SEG program is used to mask or filter LCRs in amino acid queries. The DUST 
program is used to mask or filter LCRs in nucleic acid queries. 

Machine learning (机 器 学 习 ) 

The training of a computational model of a process or classification scheme to 
distinguish between alternative possibilities. 

Markov chain (马尔 可 夫 链 ) 

Describes a process that can be in one of a number of states at any given 
time. The Markov chain is defined by probabilities for each transition occurring; 
that is, probabilities of the occurrence of state sj given that the current state is 
sp Substitutions in nucleic acid and protein sequences are generally assumed 
to follow a Markov chain in that each site changes independently of the 
previous history of the site. With this model, the number and types of 
substitutions observed over a relatively short period of evolutionary time can 
be extrapolated to longer periods of time. In performing sequence alignments 
and calculating the statistical significance of alignment scores, sequences are 
assumed to be Markov chains in which the choice of one sequence position is 
not influenced by another. 

Masking (Ë) 

Also known as Filtering. The removal of repeated or low complexity regions 
from a sequence in order to improve the sensitivity of sequence similarity 
searches performed with that sequence. 

Maximum likelihood (phylogeny, alignment) (最 大 似 然 法 ) 

The most likely outcome (tree or alignment), given a probabilistic model of 
evolutionary change in DNA sequences. 

Maximum parsimony (最 大 简约 法 ) 

Тһе minimum number of evolutionary steps required to generate the observed 
variation in a set of sequences, as found by comparison of the number of 
steps in all possible phylogenetic trees. 

Method of moments 
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The mean or expected value of a variable is the first moment of the values of 
the variable around the mean, defined as that number from which the sum of 
deviations to all values is zero. The standard deviation is the second moment 
of the values about the mean, and so on. 

Minimum spanning tree 

Given a set of related objects classified by some similarity or difference score, 
the mini-mum spanning tree joins the most-alike objects on adjacent outer 
branches of a tree and then sequentially joins less-alike objects by more 
inward branches. The tree branch lengths are calculated by the same 
neighbor-joining algorithm that is used to build phylogenetic trees of 
sequences from a distance matrix. The sum of the resulting branch lengths 
between each pair of objects will be approximately that found by the 
classification scheme. 

MMDB (分 子 建 模 数据 库 ) 

Molecular Modelling Database. A taxonomy assigned database of PDB (see 
PDB) files, and related information. 

Molecular clock hypothesis ( 分子 钟 假设 ) 

The hypothesis that sequences change at the same rate in the branches of an 
evolutionary 

tree. 

Monte Carlo ( 蒙特 卡 罗 法 ) 

А method that samples possible solutions to а complex problem as a way to 
estimate a more general solution. 

Motif (JT) 

A short conserved region in a protein sequence. Motifs are frequently highly 
conserved parts of domains. 

Multiple Sequence Alignment (多 序列 联 配 ) 

An alignment of three or more sequences with gaps inserted in the sequences 
such that residues with common structural positions and/or ancestral residues 
are aligned in the same column. Clustal W is one of the most widely used 
multiple sequence alignment programs 

Mutation data matrix ( X ЖЖМ, ШРАМЖ|) 

A scoring matrix compiled from the observation of point mutations between 
aligned sequences. Also refers to a Dayhoff PAM matrix in which the scores 
are given as log odds scores. 

№50 length (N50 КА, НЕЕ 50%)H 41 # ЖАЛЕ К ) 

A measure of the contig length (or scaffold length) containing a 'typical' 
nucleotide. Specifically, it is the maximum length L such that 50% of all 
nucleotides lie in contigs (or scaffolds) of size at least L. 

Nats (natural logarithm) 

A number expressed in units of the natural logarithm. 

NCBI (美国 国家 生物 技术 信息 中 心 ) 

National Center for Biotechnology Information (USA). Created by the United 
States Congress іп 1988, to develop information systems to support the 
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biological research community. 

Needleman-Wunsch algorithm ( Needleman-Wunsch  ) 

Uses dynamic programming to find global alignments between sequences. 
Neighbor-joining method ( 邻接 法 ) 

Clusters together alike pairs within a group of related objects (e.g., genes with 
similar sequences) to create a tree whose branches reflect the degrees of 
difference among the objects. 

Neural network (神经 网 络 ) 

From artificial intelligence algorithms, techniques that involve a set of many 
simple units that hold symbolic data, which are interconnected by a network of 
links associated with numeric weights. Units operate only on their symbolic 
data and on the inputs that they receive through their connections. Most 
neural networks use a training algorithm (see Back-propagation) to adjust 
connection weights, allowing the network to learn associations between 
various input and output patterns. See also Feed-forward neural network. 

МН (美国 国家 卫生 研究 院 ) 

National Institutes of Health (USA). 

Noise (ФЕ) 

In sequence analysis, a small amount of randomly generated variation in 
sequences that is added to a model of the sequences; e.g., a hidden Markov 
model or scoring matrix, in order to avoid the model overfitting the sequences. 
See also Overfitting. 

Normal distribution (ЕХФ) 

The distribution found for many types of data such as body weight, size, and 
exam scores. The distribution is a bell-shaped curve that is described by a 
mean and standard deviation of the mean. Local sequence alignment scores 
between unrelated or random sequences do not follow this distribution but 
instead the extreme value distribution which has a much extended tail for 
higher scores. See also Extreme value distribution. 

Object Management Group (OMG) ( 国际 对 象 管理 协作 组 ) 

A not-for-profit corporation that was formed to promote component-based 
software by introducing standardized object software. The OMG establishes 
industry guidelines and detailed object management specifications in order to 
provide a common framework for application development. Within OMG is a 
Life Sciences Research group, a consortium representing pharmaceutical 
companies, academic institutions, software vendors, and hardware vendors 
who are working together to improve communication and inter-operability 
among computational resources in life sciences research. See CORBA. 
Object-oriented database ( 面向 对 象 数据 库 ) 

Unlike relational databases (see entry), which use a tabular structure, 
object-oriented databases attempt to model the structure of a given data set 
as closely as possible. In doing so, object-oriented databases tend to reduce 
the appearance of duplicated data and the complexity of query structure often 
found in relational databases. 
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Odds score (概率 /几率 值 ) 

The ratio of the likelihoods of two events or outcomes. In sequence 
alignments and scoring matrices, the odds score for matching two sequence 
characters is the ratio of the frequency with which the characters are aligned 
in related sequences divided by the frequency with which those same two 
characters align by chance alone, given the frequency of occurrence of each 
in the sequences. Odds scores for a set of individually aligned positions are 
obtained by multiplying the odds scores for each position. Odds scores are 
often converted to logarithms to create log odds scores that can be added to 
obtain the log odds score of a sequence alignment. 

OMIM (一 种 人 类 遗传 疾病 数据 库 ) 

Online Mendelian Inheritance in Man. Database of genetic diseases with 
references to molecular medicine, cell biology, biochemistry and clinical 
details of the diseases. 

Optimal alignment ( 最 佳 联 配 ) 

The highest-scoring alignment found by an algorithm capable of producing 
multiple solutions. This is the best possible alignment that can be found, given 
any parameters supplied by the user to the sequence alignment program. 
ORF (开放 阅读 框 ) 

Open Reading Frame. A series of codons (base triplets) which can be 
translated into a protein. There аге six potential reading frames of an 
unidentifed sequence; TBLASTN (see BLAST) transalates a nucleotide 
sequence in all six reading frames, into a protein, then attempts to align the 
results to sequeneces in a protein database, returning the results as a 
nucleotide sequence. The most likely reading frame can be identified using 
on-line software (e.g. ORF Finder). 

Orthologous ( 直系 同 源 ) 

Homologous sequences in different species that arose from a common 
ancestral gene during speciation; may or may not be responsible for a similar 
function. A pair of genes found in two species are orthologous when the 
encoded proteins are 60-80% identical in an alignment. The proteins almost 
certainly have the same three-dimensional structure, domain structure, and 
biological function, and the encoding genes have originated from a common 
ancestor gene at an earlier evolutionary time. Two orthologs 1 and Il in 
genomes A and B, respectively, may be identified when the complete 
genomes of two species are available: (1) in a database similarity search of all 
of the proteome of В using | as a query, ІІ is the best hit found, апа (2) | is the 
best hit when 11 is used as a query of the proteome of B. The best hit is the 
database sequence with the highest expect value (E). Orthology is also 
predicted by a very close phylogenetic relationship between sequences or by 
a cluster analysis. Compare to Paralogs. See also Cluster analysis. 

Output layer ( 输出 层 ) 

The final layer of a neural network in which signals from lower levels in the 
network are input into output states where they are weighted and summed to 
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give an outpu t signal. For example, the output signal might be the prediction 
of one type of protein secondary structure for the central amino acid in a 
sequence window. 

Overfitting 

Can occur when using a learning algorithm to train a model such as a neural 
net or hid-den Markov model. Overfitting refers to the model becoming too 
highly representative of the training data and thus no longer representative of 
the overall range of data that is supposed to be modeled. 

P value (P 值 /概率 值 ) 

The probability of an alignment occurring with the score in question or better. 
The p value is calculated by relating the observed alignment score, S, to the 
expected distribution of HSP scores from comparisons of random sequences 
of the same length and composition as the query to the database. The most 
highly significant P values will be those close to 0. P values and E values аге 
different ways of representing the significance of the alignment. 

Pair-wise sequence alignment ( X £ 7| Kit ) 

An alignment performed between two sequences. 

PAM (可 接受 突变 百分率 /可 以 观察 到 的 突变 百分率 ， 它 可 作为 一 种 进化 时 间 单 
位 ) 

Percent Accepted Mutation. A unit introduced by Dayhoff et al. to quantify the 
amount of evolutionary change in a protein sequence. 1.0 PAM unit, is the 
amount of evolution which will change, on average, 1% of amino acids in a 
protein sequence. A PAM(x) substitution matrix is a look-up table in which 
scores for each amino acid substitution have been calculated based on the 
frequency of that substitution in closely related proteins that have experienced 
a certain amount (x) of evolutionary divergence. 

Paralogous (# & 81 ) 

Homologous sequences within a single species that arose by gene duplication. 
Genes that are related through gene duplication events. These events may 
lead to the production of a family of related proteins with similar biological 
functions within a species. Paralogous gene families within a species are 
identified by using an individual protein as a query in a database similarity 
search of the entireproteome of an organism. The process is repeated for the 
entire proteome and the resulting sets of related proteins are then searched 
for clusters that are most likely to have a conserved domain structure and 
should represent a paralogous gene family. 

Parametric sequence alignment 

An algorithm that finds a range of possible alignments based on varying the 
parameters of the scoring system for matches, mismatches, and gap penalties. 
An example is the Bayes block aligner. 

РОВ (主要 蛋白 质 结构 数据 库 之 一 ) 

Brookhaven Protein Data Bank. A database and format of files which describe 
the 3D structure of a protein or nucleic acid, as determined by X-ray 
crystallography or nuclear magnetic resonance (NMR) imaging. The 
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molecules described by the files are usually viewed locally by dedicated 
software, but can sometimes be visualised on the world wide web. 

Pearson correlation coefficent ( Pearson 相关 系数 ) 

A measure of the correlation between two variables that reflects the degree to 
which the two variables are related. For example, the coefficient is used as a 
measure of similarity of gene expression in a microarray experiment. See also 
Correlation coefficient. Percent identity The percentage of the columns in an 
alignment of two sequences that includes identical amino acids. Columns in 
the alignment that include gaps are not scored in the calculation. 

Percent similarity (相似 百分率 ) 

The percentage of the columns in an alignment of two sequences that 
includes either identical amino acids or amino acids that are frequently found 
substituted for each other in sequences of related proteins (conservative 
substitutions). These substitutions may be found in an amino acid substitution 
matrix such as the Dayhoff PAM and Henikoff BLOSUM matrices. Columns in 
the alignment that include gaps are not scored in the calculation. 

Perceptron ( 感知 器 ， 模 拟人 类 视神经 控制 系统 的 图 形 识别 机 ) 

А neural network in which input and output states are directly connected 
without intervening hidden layers. 

PHRED ( 一 种 广泛 应 用 的 原始 序列 分 析 程 序 ， 可 以 对 序列 的 各 个 碱 基 进 行 识别 
和 质量 评价 ) 

A widely used computer program that analyses raw sequence to produce a 
‘pase са!" with an associated ‘quality score’ for each position in the sequence. 
A PHRED quality score of X corresponds to an error probability of 
approximately 10-X/10. Thus, a PHRED quality score of 30 corresponds to 
99.9% accuracy for the base call in the raw read. 

PHRAP (一 种 广泛 应 用 的 原始 序列 组 装 程序 ) 

A widely used computer program that assembles raw sequence into sequence 
contigs and assigns to each position in the sequence an associated 'quality 
score’, on the basis of the PHRED scores of the raw sequence reads. А 
PHRAP quality score of X corresponds to an error probability of approximately 
10-X/10. Thus, a PHRAP quality score of 30 corresponds to 99.9% accuracy 
for a base in the assembled sequence. 

Phylogenetic studies ( 系统 发 育 研 究 ) 

PIR (主要 蛋白 质 序 列 数据 库 之 一 ， 翻 译 自 GenBank) 

A database of translated GenBank nucleotide sequences. PIR is a redundant 
(see Redundancy) protein sequence database. The database is divided into 
four categories: 

РІК1 - Classified апа annotated. 

PIR2 - Annotated. 

PIR3 - Unverified. 

PIR4 - Unencoded or untranslated. 

Poisson distribution ( 1414775 ) 

Used to predict the occurrence of infrequent events over a long period of time 
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or when there are a large number of trials. In sequence analysis, it is used to 
calculate the chance that one pair of a large number of pairs of unrelated 
sequences may give a high local alignment score. 

Position-specific scoring matrix (PSSM) (特定 位 点 记分 矩阵 ，PSI-BLAST 
等 搜索 程序 使 用 ) 

The PSSM gives the log-odds score for finding a particular matching amino 
acid in a target sequence. Represents the variation found in the columns of an 
alignment of a set of related sequences. Each subsequent matrix column 
corresponds to the next column in the alignment and each row corresponds to 
a particular sequence character (one of four bases in DNA sequences or 20 
amino acids in protein sequences). Matrix values are log odds scores 
obtained by dividing the counts of the residue in the alignment, dividing by the 
expected number of counts based on sequence composition, and converting 
the ratio to a log score. The matrix is moved along sequences to find similar 
regions by adding the matching log odds scores and looking for high values. 
There is no allowance for gaps. Also called a weight matrix or scoring matrix. 
Posterior (Bayesian analysis) 

A conditional probability based on prior knowledge and newly evaluated 
relationships among variables using Bayes rule. See also Bayes rule. 

Prior (Bayesian analysis) 

The expected distribution of a variable based on previous data. 

Profile ( 分 布 型 ) 

А matrix representation of a conserved region in a multiple sequence 
alignment that allows for gaps in the alignment. The rows include scores for 
matching sequential columns of the alignment to a test sequence. The 
columns include substitution scores for amino acids and gap penalties. See 
also PSSM. 

Profile hidden Markov model ( 分布 型 隐 马 尔 可 夫 模 型 ) 

A hidden Markov model of а conserved region in a multiple sequence 
alignment that includes gaps and may be used to search new sequences for 
similarity to the aligned sequences. 

Proteome ( 蛋白 质 组 ) 

The entire collection of proteins that are encoded by the genome of an 
organism. Initially the proteome is estimated by gene prediction and 
annotation methods but eventually will be revised as more information on the 
sequence of the expressed genes is obtained. 

Proteomics (蛋白质 组 学 ) 

Systematic analysis of protein expression of normal and diseased tissues that 
involves the separation, identification and characterization of all of the proteins 
in an organism. 

Pseudocounts 

Small number of counts that is added to the columns of a scoring matrix to 
increase the variability either to avoid zero counts or to add more variation 
than was found in the sequences used to produce the matrix. 
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PSI-BLAST (BLAST 系列 程序 之 一 ) 

Position-Specific Iterative BLAST. An iterative search using the BLAST 
algorithm. A profile is built after the initial search, which is then used in 
subsequent searches. The process may be repeated, if desired with new 
sequences found in each cycle used to refine the profile. Details can be found 
in this discussion of PSI-BLAST. (Altschul et al.) 

PSSM (REB AI ER) 

See position-specific scoring matrix and profile. 

Public sequence databases (公共 序列 数据 库 ， 指 GenBank. EMBL 和 
DDBJ) 

The three coordinated international sequence databases: GenBank, the EMBL 
data library and DDBJ. 

Q20 (Quality score 20) 

A quality score of > or = 20 indicates that there is less than a 1 in 100 
chance that the base call is incorrect. These are consequently high-quality 
bases. Specifically, the quality value "q" assigned to a basecall is defined as: 

q = -10 xlog10(p) 
where p is the estimated error probability for that basecall. Note that high 
quality values correspond to low error probabilities, and conversely. 
Quality trimming 

This is an algorithm which uses a sliding window of 50 bases and trims 
from the 5' end of the read followed by the 3' end. With each window, the 
number of low quality (10 or less) bases is determined. If more than 5 bases 
are below the threshold quality, the window is incremented by one base and 
the process is repeated. When the low quality test fails, the position where it 
stopped is recorded. The parameters for window length low quality threshold 
and number of low quality bases tolerated are fixed. The positions of the 5' 
and 3' boundaries of the quality region are noted in the plot of quality values 
presented in the" Chromatogram Details" report. 
Query 〈 待 查 序列 /搜索 序列 ) 
The input sequence (or other type of search term) with which all of the entries 
in a database are to be compared. 
Radiation hybrid (RH) map (辐射 杂交 图 谱 ) 
A genome map in which STSs are positioned relative to one another on the 
basis of the frequency with which they are separated by radiation-induced 
breaks. The frequency is assayed by analysing a panel of human-hamster 
hybrid cell lines, each produced by lethally irradiating human cells and fusing 
them with recipient hamster cells such that each carries a collection of human 
chromosomal fragments. The unit of distance is centirays (cR), denoting a 196 
chance of a break occuring between two loci 
Raw Score ( 初 值 ， 指 最 初 得 到 的 联 配 值 S) 
The score of an alignment, S, calculated as the sum of substitution and gap 
scores. Substitution scores are given by a look-up table (see PAM, BLOSUM). 
Gap scores are typically calculated as the sum of G, the gap opening penalty 
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and L, the gap extension penalty. For a gap of length n, the gap cost would be 
С+ п. The choice of gap costs, С and L is empirical, but it is customary to 
choose a high value for G (10-15)and a low value for L (1-2). 

Raw sequence (原始 序列 / 读 胶 序列 ) 

Individual unassembled sequence reads, produced by sequencing of clones 
containing DNA inserts. 

Receiver operator characteristic 

The receiver operator characteristic (ROC) curve describes the probability that 
a test will correctly declare the condition present against the probability that 
the test will declare the condition present when actually absent. This is shown 
through a graph of the tesls sensitivity against one minus the test specificity 
for different possible threshold values. 

Redundancy (ZA) 

The presence of more than one identical item represents redundancy. In 
bioinformatics, the term is used with reference to the sequences in a 
sequence database. If a database is described as being redundant, more than 
one identical (redundant) sequence may be found. If the database is said to 
be non-redundant (nr), the database managers have attempted to reduce the 
redundancy. The term is ambiguous with reference to genetics, and as such, 
the degree of non-redundancy varies according to the database manager's 
interpretation of the term. One can argue whether or not two alleles of a locus 
defines the limit of redundancy, or whether the same locus in different, closely 
related organisms constitutes redundency. Non-redundant databases are, in 
some ways, superior, but are less complete. These factors should be taken 
into consideration when selecting a database to search. 

Regular expressions 

This computational tool provides a method for expressing the variations found 
in a set of related sequences including a range of choices at one position, 
insertions, repeats, and so on. For example, these expressions are used to 
characterize variations found in protein domains in the PROSITE catalog. 
Regularization 

A set of techniques for reducing data overfitting when training a model. See 
also Overfitting. 

Relational database (关系 数据 库 ) 

Organizes information into tables where each column represents the fields of 
informa-tion that can be stored in a single record. Each row in the table 
corresponds to a single record. A single database can have many tables and 
a query language is used to access the data. See also Object-oriented 
database. 

Scaffold (支架 ， 由 序列 重 壹 群 拼接 而 成 ) 

The result of connecting contigs by linking information from paired-end reads 
from plasmids, paired-end reads from BACs, known messenger RNAs ог 
other sources. The contigs in a scaffold are ordered and oriented with respect 
to one another. 
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Scoring matrix (2) 

See Position-specific scoring matrix. 

SEG (一 种 蛋白 质 程 序 低 复杂 性 区 段 过 滤 程 序 ) 

A program for filtering low complexity regions in amino acid sequences. 
Residues that have been masked are represented as "X" in an alignment. 
SEG filtering is performed by default in the blastp subroutine of BLAST 2.0. 
(Wootton and Federhen) 

Selectivity (in database similarity searches) ( 数据库 相似 性 搜索 的 选择 准确 
ЊЕ) 

The ability of а search method to locate members of а protein family without 
making a false-positive classification of members of other families. 

Sensitivity (in database similarity searches) (数据 库 相 似 性 搜索 的 灵敏 性 ) 
The ability of a search method to locate as many members of a protein family 
as possi-ble, including distant members of limited sequence similarity. 
Sequence Tagged Site (序列 标签 位 点 ) 

Short cDNA sequences of regions that have been physically mapped. STSs 
provide unique landmarks, or identifiers, throughout the genome. Useful as a 
framework for further sequencing. 

Significance ( 显著 水 平 ) 

A significant result is one that has not simply occurred by chance, and 
therefore is prob-ably true. Significance levels show how likely a result is due 
to chance, expressed as a probability. In sequence analysis, the significance 
of an alignment score may be calcu-lated as the chance that such a score 
would be found between random or unrelated sequences. See Expect value. 
Similarity score (sequence alignment) (相似 性 值 ) 

Similarity means the extent to which nucleotide or protein sequences are 
related. The extent of similarity between two sequences can be based on 
percent sequence identity and/or conservation. In BLAST similarity refers to a 
positive matrix score. The sum of the number of identical matches and 
conservative (high scoring) substitu-tions in a sequence alignment divided by 
the total number of aligned sequence charac-ters. Gaps are usually ignored. 
Simulated annealing 

A search algorithm that attempts to solve the problem of finding global 
extrema. The algorithm was inspired by the physical cooling process of metals 
and the freezing process in liquids where atoms slow down in movement and 
line up to form a crystal. The algorithm traverses the energy levels of a 
function, always accepting energy levels that are smaller than previous ones, 
but sometimes accepting energy levels that are greater, according to the 
Boltzmann probability distribution. 

Single-linkage cluster analysis 

An analysis of a group of related objects, e.g., similar proteins in different 
genomes to identify both close and more distant relationships, represented on 
a tree or dendogram. The method joins the most closely related pairs by the 
neighbor-joining algorithm by representing these pairs as outer branches on 
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the tree. More distant objects are then pro-gressively added to lower tree 
branches. The method is also used to predict phylogenet-ic relationships by 
distance methods. See also Hierarchical clustering, Neighbor-joining method. 
Smith-Waterman algorithm ( Smith-Waterman Ж) 

Uses dynamic programming to find local alignments between sequences. The 
key fea-ture is that all negative scores calculated in the dynamic programming 
matrix are changed to zero in order to avoid extending poorly scoring 
alignments and to assist in identifying local alignments starting and stopping 
anywhere with the matrix. 

SNP (ЕВЕ Е) 

Single nucleotide polymorphism, ог а single nucleotide position іп the genome 
sequence for which two or more alternative alleles are present at appreciable 
frequency (traditionally, at least 196) in the human population. 

Space or time complexity ( 时 间或 空间 复杂 性 ) 

An algorithms complexity is the maximum amount of computer memory or 
time required for the number of algorithmic steps to solve a problem. 
Specificity (in database similarity searches) (数据 库 相 似 性 搜索 的 特异 性 ) 
The ability of a search method to locate members of one protein family, 
including dis-tantly related members. 

SSR (简单 序列 重复 ) 

Simple sequence repeat, a sequence consisting largely of a tandem repeat of 
a specific k-mer (such as (CA)15). Many SSRs are polymorphic and have 
been widely used in genetic mapping. 

Stochastic context-free grammar 

A formal representation of groups of symbols in different parts of a sequence; 
i.e., not in the same context. An example is complementary regions in RNA 
that will form sec-ondary 

structures. The stochastic feature introduces variability into such regions. 
Stringency 

Refers to the minimum number of matches required within a window. See also 
Filtering. 

STS (序列 标签 位 点 的 缩写 ) 

See Sequence Tagged Site 

Substitution (24) 

The presence of a non-identical amino acid at a given position іп an alignment. 
If the aligned residues have similar physico-chemical properties the 
substitution is said to be "conservative". 

Substitution Matrix (替换 矩阵 ) 

A substitution matrix containing values proportional to the probability that 
amino acid i mutates into amino acid | for all pairs of amino acids. such 
matrices are constructed by assembling a large and diverse sample of verified 
pairwise alignments of amino acids. ІҒ the sample is large enough to be 
statistically significant, the resulting matrices should reflect the true 
probabilities of mutations occuring through a period of evolution. 
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Sum of pairs method 

Sums the substitution scores of all possible pair-wise combinations of 
sequence charac-ters in one column of a multiple sequence alignment. 
SWISS-PROT (主要 蛋白 质 序 列 数据 库 之 一 ) 

A non-redundant (See Redundancy) protein sequence database. Thoroughly 
annotated and cross referenced. A subdivision is TTEMBL. 

Synteny 

The presence of a set of homologous genes in the same order on two 
genomes. 

Threading 

In protein structure prediction, the aligning of the sequence of a protein of 
unknown structure with a known three-dimensional structure to determine 
whether the amino acid sequence is spatially and chemically compatible with 
that structure. 

TrEMBL (和 蛋白质 数据 库 之 一 ， 翻 译 自 EMBL) 

A protein sequence database of Translated EMBL nucleotide sequences. 
Uncertainty (不 确定 性 ) 

From information theory, a logarithmic measure of the average number of 
choices that must be made for identification purposes. See also Information 
content. 

Unified Modeling Language (UML) 

A standard sanctioned by the Object Management Group that provides a 
formal nota-tion for describing object-oriented design. 

UniGene (人 类 基因 数据 库 之 一 ) 

Database of unique human genes, at NCBI. Entries are selected by near 
identical presence in GenBank and dbEST databases. The clusters of 
sequences produced are considered to represent a single gene. 

Unitary Matrix (一 元 矩阵 ) 

Also known as ldentity Matrix. A scoring system in which only identical 
characters receive a positive score. 

URL ( 统一 资源 定位 符 ) 

Uniform resource locator. 

Viterbi algorithm 

Calculates the optimal path of a sequence through a hidden Markov model of 
sequences using a dynamic programming algorithm. 

Weight matrix 

See Position-specific scoring matrix. 
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附录 : ЖЕ 


(一 ) FEBR A 


酸 代码 














《 生 


物 信息 学 札记 》 BHU 
































代码 EE 
À Adenine ЖШ» 
0 Guanine É Ew 
T Thymine Я i i ex 
С Cytosine ЈЕНЕ 
U Uracil Дене 
(=) IUB/ IUPAC 代码 
代码 碱 基 说 明 
R A 或 6 LI 
Y TRC 2173 
W AAT Са 
5 СЖ G Dr 
M AE C 氨基 
K CRT 酮 基 
B CORT JF А 
D „СТ ЗЕ С 
H „СТ 非 6 
V „Сб JET 
N A,G, CRT 任意 碱 基 
(=) 氨基 酸 代码 
Bee => шү ТЭ 
代码 代码 代码 代码 
А Ala Alanine HAR М Met Methionine FRAR 
EAR) 
B ASX Asparagine X BE N Asn Asparagine KA RHE 
Aspartic acid KAA 
酸 
C Cys Cysteine ЯР P Pro Proline HAR 
D Asp Aspartic X A AER Q GIn Glutamine Bt 
E Glu Glutamic acid АДВ R ATg Arginine TE AER 
F Phe Phenylalanine ЖЕ 5 Ser Serine 丝氨酸 
AR 
G Gly Glycine FAR T Thr Threonine HAR 
H His Histidine AAR V Val Valine AB 
I Ile Isoleucine # RAB VW Trp Tryptophan BAR 
K Lys Lysine MAB Y Tyr Tyrosine MAR 
Ї Leu Leucme RAR Z 612 Glutamine 谷 氨 酰胺 


Glutamic acid Fam 
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(四 ) 遗传 密码 
第 一 第 = 碱 基 第 三 
碱 基 碱 基 
U Ü А G 
UUU UCU UAU UGU U 
Phe tyr cys 

UUC UCC See UAC UGC C 
U  UUA | ОСА UAA% 0704-8141 A 
сос” UCG UAC- А G —trp б 
CUU CCU CAU т" CGU U 
CUC CCC САС 666 C 
C Leu Pro arg А 
CUA CCA CAA T CGA : 

CUG CCG сав" CGG 
AUU ACU AAU AGU U 

asn Ser 

AUC + ile ACC Ёл ААС АСС C 
А AUA АСА ААА АСА А 
lys arg ( 

AUG Met ACG AAG AGG 
GUU GCU GAU T GGU U 
GUC L Val GCC GAC 7 GGC C 
G ala gly А 
GUA GCA GAA | GGA : 

1 
0C VO 起 点 GCG сав" GGG 
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ЭМЕ E Tu ЈИ J$: У A APA A ЖЕТ] Ж 







































































表 1 与 核 音 酸 序列 相关 的 特征 关键 词 表 

关键 词 说 明 

allele 相关 的 个 体 或 菌株 含有 相同 基因 的 稳定 的 其 它 形式 , 该 形式 区 别 于 这 一 位 置 的 
现 有 的 序列 (和 或 许 其 它 序列 ) 

attenuator — | 存在 调节 转录 的 终止 的 DNA 区 域 , 它 控制 了 一 些 细菌 操纵 子 的 表达 ; (2) 位 于 启 
动 子 和 第 一 个 结构 基因 之 间 ， 引 起 转录 的 部 分 终止 的 序列 区 段 

C region 免疫 球 蛋白 轻 和 重 链 的 恒定 区 , 和 人 -细胞 受 体 а, В, 和 у 链 ;根据 特定 的 链 可 








包括 一 个 或 多 个 外 显 子 























CAAT signal 











CAAT 盒 ;位 于 可 能 参与 RNA 聚合 酶 结合 的 真 核 生物 转录 单位 的 起 始点 的 Tobp 上 


游 的 保守 序列 的 一 部 分 ， 共 有 序列 =GG(C BK T) CAATCT 

















































































































































































































































































































CDS 编码 序列 ;对 应 于 蛋白 质 中 的 氨基 酸 序列 的 核 苷 酸 的 序列 (位 置 包括 终止 密码 
T) ;特征 包括 氨基 酸 概念 上 的 翻译 

Conflict 在 这 一 位 点 或 区 域 , 单独 确定 的 “相同 ”序列 有 所 不 同 

D-loop 置换 环 ， 线 粒 体 DNA 内 的 一 个 区 域 , 其 中 ВМА 的 短 的 序列 与 DNA 的 一 条 链 配对 ， 
代替 了 这 一 区 域 的 原始 配对 DNA 链 ; 也 用 于 说 明 在 RecA 蛋白质 催 化 的 反应 中 ， 
侵入 的 单 链 奉 代 双 链 DNA. 的 一 条 链 的 区 域 

D-segment 免疫 球 蛋 白 重 链 的 多 变 区 , 和 T- 细 胞 受 体 的 В 链 

Enhancer 顺 式 - 作 用 序列 , 它 增强 了 (一些) 真 核 生 物 启动 子 的 作用 , 并 能 在 任 一 方向 和 与 
启动 子 相关 的 任何 位 置 处 (上游 或 下 游 ) 起 作用 

Exon 编码 剪接 mRNA 部 分 的 基因 组 区 域 : 可 以 含有 5 UTR, 所 有 CDS, 和 3’ UTR 

GC signal GC 盒 ; 位 于 真 核 生物 转 录 单 位 起 始点 上 游 的 保守 的 富 含 6C 区 域 , uj b| ДЕЛЕ 1 
或 任 一 方向 存在 ;共有 序列 =GGGCGG 

gene 鉴定 为 基因 的 生物 学 意义 的 区 域 , 并 已 经 指定 名 称 

iDNA НИЯ DNA; 通 过 几 种 重组 中 的 任何 一 种 能 被 消除 的 DNA 

intron 被 转录 的 DNA < Ez, 但 通过 同时 剪接 位 于 其 两 侧 的 序列 (外 显 子 ) 即 可 从 转录 本 内 




















部 将 其 除去 
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J segment 免疫 球 和 蛋白 轻 链 和 重 链 的 连接 区 段 , 和 T-4HB SA а, В 和 ү HE 
LTR 长 的 末端 重复 , 在 确定 序列 的 两 端 直接 重复 的 序列 ， 类 型 典型 地 见于 逆转 录 病 毒 

















rH 








mat peptide 











成 熟 的 肽 或 蛋白 质 的 编码 序列 ;翻译 后 修饰 之 后 成 熟 的 或 最 终 的 肽 或 蛋白 质 产 
物 的 编码 序列 ;位 置 不 包括 终止 密码 子 ( 与 相应 的 CDS 不 同 ) 






































misc binding 




















不 能 用 任何 其 它 Binding 关键 词 primer_bind 或 protein_bind) 表 述 的 与 另 一 
个 组 成 成 分 共 价 或 非 - 共 价 结合 的 核酸 中 的 位 点 














misc _ 


difference 
































特征 序列 与 记载 中 存在 的 有 所 不 同 ,并且 不 能 用 任何 其 它 不 同 关 键 词 
(conflict, unsure, 014 sequence, mutation, variation, allele 或 
modified base) 表 述 











misc feature 




















不 能 用 任何 其 它 的 特征 关键 词 表述 的 具有 生物 学 意义 的 区 域 ;新 的 或 少见 的 特 
征 











misc recomb 





























任何 一 般 性 的 , 位 点 特异 性 的 或 复制 的 重组 事件 的 位 点 , 该 位 点 中 有 不 能 用 其 它 
重组 关键 词 (iDNA 和 virion) 或 来 源 关 键 词 的 修饰 词 (/transposon, /proviral) 
表述 的 双 螺 旋 DNA 的 断裂 和 愈合 



































misc RNA 





不 能 用 其 他 К\А 关键 词 Cprim transcript, precursor RNA, mRNA, 5'clip, 
3'clip 5'UTR, 3'UTR, exon, CDS, sig peptide, transit _ peptide, 
mat peptide, intron, polyA site, rRNA, tRNA, scRNA 和 snRNA) 限定 的 任 
何 转录 本 或 RNA 产物 





misc signal 











含有 控制 或 改变 基因 功能 或 表达 之 信号 的 任何 区 域 , 所 述 信号 不 能 用 其 他 
Signal 关键 词 (promoter, CAAT signal, ТАТА signal, -35 signal, 
10 signal, GC signal, RBS, polyA signal, enhancer, attenuator, terminator 
All гер origin) ӘЖ 













































































misc structur | 不 能 用 其 他 Structure 关键 词 (stem loop 和 D-1loop) 表 述 的 任何 二 级 或 三 级 结 
e 构 或 构象 
odified base | 被 指示 的 核 昔 酸 是 经 修饰 的 核 背 酸 , 并 应 由 被 指示 的 分 子 (在 под base 修饰 词 意 
义 中 给 出 ) 所 取代 
RNA 信使 RNA; 包括 5 非 翻 译 区 (5 UTR), 编码 序列 (CDS, 外 显 子 ) 和 3” 非 翻译 区 (3 
` UTR) 
utation 在 此 位 置 处 ， 相 关 品 系 的 序列 中 具有 突然 的 ， 可 遗传 的 变化 
_region 在 重 排 的 免疫 球 和 蛋白 区 段 之 间 插 入 的 额外 的 核 苷 酸 














Old sequence 











在 此 位 置 处 ， 所 表述 的 序列 修改 了 此 序列 以 前 的 版 本 





PolyA signal 


ACH HR LZ Je q UJ ӨШІН. RNA 转录 本 所 必需 的 识别 区 域 ， 共 有 序列 = 
AATAAA 




















PolyA site 





RNA 转录 本 上 的 位 点 , 通过 转录 后 聚 腺 音 酸 化 该 位 点 将 被 加 上 腺 嗓 叭 残 基 











Precursor RNA 





仍 不 是 成 熟 的 RNA 产物 的 任何 К\А FHSS; 可 包括 5 剪 切 区 (5 clip), 5' ЧЕ ПЖ 
区 (5 ОТК), 编码 序列 (CDS, 外 显 子 ) , 间 插 序列 (内 含 子 ), 3 非 翻译 区 (3 UTR), 
All 3? HYK (3 clip) 
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prim transcri 


初级 〈 最 初 的 ， 未 加 工 的 ) 转录 本 ;包括 5 剪 切 区 (5 clip), 


5' 非 翻 译 区 




















pt C5" UTR) , 编码 序列 (CDS, К), 间 插 序列 (内 含 子 ), 3 非 翻译 区 (3 UTR) 和 
3 前 切 区 (3’ clip) 

prim bind 起 始 复制 , 转录 或 逆转 录 的 非 一 共 价 的 引物 结合 位 点 ;包括 合成 的 例如 PCR 引物 
元 件 的 位 点 

Promoter 参与 RNA 聚合 酶 的 结合 以 启动 转录 的 DNA 分 子 区 域 











protein bind 








结合 位 点 














RBS 








repeat region 


























repeat unit 


















































































































































































































































































































































rep origin 复制 起 点 ;复制 核酸 以 得 到 两 个 相同 拷贝 的 起 始 位 点 

RRNA 成 熟 的 核糖 体 RNA; 将 氨基 酸 装配 成 蛋白 质 的 核糖 核 蛋 白 颗 粒 〈 核 糖 体 ) 中 的 
RNA 成 份 

S_region 免疫 球 蛋 白 重 链 的 开关 区 ;， 它 参与 重 链 DNA 的 重 排 , 导致 来 自 相 同 B 一 细胞 的 不 
同 免疫 球 蛋 白 类 的 表达 

Satellite 短 的 基本 重复 单位 的 很 多 串联 重复 (相同 或 相关 的 ) ;大 多 数 具 有 的 碱 基 组 成 或 
其 它 性 质 与 基因 组 的 一 般 水 平 不 同 , 这 使 得 它们 与 大 部 分 ( 主 带 ) 的 基因 组 DNA 分 
离开 来 

ScRNA 小 的 细胞 质 RNA; 几 个 小 的 细胞 质 RN A 分 子 中 的 任何 一 个 存在 于 真 核 生物 的 细 
胞 质 和 (有时) 核 中 

sig peptide 信号 肽 编码 序列 ， 被 分 泌 的 蛋白 质 的 N 一 末端 结构 域 的 编码 序列 ， 此 结构 域 涉 
及 新 生 多 肽 与 膜 的 结合 ， 前 导 序 列 

SnRNA 小 的 核 RNA; 很 多 小 的 ВМА 种 类 中 的 任何 一 个 都 被 局 限于 核 中 ， 几 个 snRNA 参与 
剪接 或 其 它 RNA 加 工 反应 

source 鉴定 序列 中 特定 范围 的 生物 来 源 ， 此 关键 词 是 强制 性 的 ， 每 一 项 至 少 要 有 一 个 
跨越 整个 序列 的 单一 来 源 关键 词 ， 每 个 序列 可 允许 有 一 个 以 上 的 来 源 关键 词 

stem loop BARGER; 由 ВМА 或 DNA ЖЕНА СК) 互补 序列 之 间 的 碱 基 一 配对 形成 
的 双 螺 旋 区 域 

STS 序列 标记 位 点 : 表述 基因 组 上 作 图 界 标 并 能 通过 PCR 检测 的 短 的 ， 单 拷贝 DNA 
序列 ;通过 测定 STS 系列 的 次 序 即 可 作出 图 谱 的 基因 组 区 域 

TATA signal TATA $$: Goldberg-Hogness fm; 在 每 个 真 核 生物 RNA 聚合 酶 开 转 录 单 位 起 点 前 
约 25bp 处 发 现 的 保守 的 富 含 AT 的 七 聚 体 ， 它 可 能 涉及 使 酶 定位 以 正确 地 起 始 ; 
共有 序列 =TATA САВЕТ) А (САВЕТ) 

terminator 或 者 位 于 转录 本 的 末端 或 者 与 启动 子 区 域 相 邻 的 DNA 序列 ， 该 序列 可 导致 RNA 
聚合 酶 终止 转录 ; 也 可 以 是 阻 抑 蛋白 的 结合 位 点 

transit pepti | 转运 肽 编码 序列 ， 核 编码 的 细胞 器 蛋白 质 N 一 末端 结构 域 的 编码 序列 ， 此 结构 

de 域 参 与 将 蛋白 质 翻 译 后 运送 到 细胞 器 中 
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tRNA 成 熟 的 转移 RNA, ， 小 的 RNA 分 子 (75—85 个 碱 基 长 〉， 介 导 核 酸 序列 翻译 成 氨 
基 酸 序列 

unsure 作者 不 能 确定 此 区 域 的 准确 序列 

V region 免疫 球 和 蛋白 轻 链 和 重 链 的 可 变 区 ， 和 了 T 一 细胞 受 体 ac ，B 和 YY 链 ; 编码 可 变 的 
氨基 末端 部 分 ， 可 由 V_ segment, D segment, № region Я J segment 组 成 

V segment 免疫 球 蛋 白 轻 链 和 重 链 的 可 变 区 段 ， 和 T 一 细胞 受 体 ad Ву; 编码 大 多 
数 可 变 区 (у region) 和 前 导 肽 的 最 后 几 个 氨基 酸 

variation 含有 来 自 相 同 基 因 的 稳定 突变 的 相关 系列 〈 例 如 RFLP， 多 态 性 等 ) ТЕШ (ЖІ 
可 能 其 它 ) 位 置 处 所 述 相同 基 因 与 被 表述 的 不 同 

3”clip 在 加 工 过 程 中 被 切 下 的 前 体 转录 本 3 端 大 部 分 区 域 

3’ UTP 不 被 翻译 成 蛋白 质 的 成 熟 转 录 本 的 3 "末端 区 域 〈 终 止 密码 子 之 后 ) 

5' clip 在 加 工 过 程 中 被 切 下 的 前 体 转录 本 57 端 大 部 分 区 域 

5”UTP 不 被 翻译 成 蛋白 质 的 成 熟 转录 本 的 5 "末端 区 域 〈 起 始 密码 子 之 前 ) 

_ 10 signal | Pribnow 5; 细菌 转录 单位 起 点 上 游 约 106р 处 的 保守 区 域 , 它 可 能 参与 结合 RNA 
聚合 酶 ;共有 序列 =TatAaT 

_ 35 signal | 细菌 转录 单位 起 点 上 游 约 35bp 处 的 保守 六 聚 体 ， 共 有 序列 =TTGACa[] 或 








ТСТТСАСА [] 





Жо 与 蛋白 质 序列 相关 的 特征 关键 词 表 





关键 词 

CONFLICT 
VARIANT 
VARSLIC 
MUTAGEN 


MOD_RES 


AMIDAT ION 


BLOCKED 





ACETYLATION 


FORMYLATION 


说 明 
不 同 的 论文 报道 了 不 同 的 序列 

作者 报道 存在 序列 变 体 

由 可 选择 的 剪接 产生 的 序列 变 体 的 表述 











经 实验 操作 已 改变 的 位 点 
残 基 的 翻译 后 修饰 





N 一 末端 或 其 它 
通常 位 于 成 熟 的 活性 肽 的 C 一 末端 
不 能 被 测定 的 N 一 或 C 一 末端 封闭 基 团 
N 一 未 端 甲 硫 氨 酸 的 





GAMMA-CARBOXY-GLUTAMIC AAC HEH, KAAR, 4 НО 1 
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ACID HYDROXYLATION 







































































































































































METHYLATION 通常 为 赖 氨 酸 或 精 氮 酸 的 

PHOSPHORYLATION 丝氨酸 ， 共 氨 酸 ， 酷 氨 酸 ， 天 冬 氨 酸 或 组 氮 酸 的 

PYRROLIDONE 已 形成 内 部 环 内 酰胺 的 N 一 末端 谷 氮 酸 

CARBOXYLICACID 

SULFATATION 通常 为 酷 氨 酸 的 

LIPID 脂 质 组 成 成 分 的 共 价 结合 

MYRISTATE 通过 酰胺 键 与 蛋白 质 成 熟 形 式 的 N 一 末端 甘氨酸 残 基 或 内 部 的 赖 氨 
BREA МЫ. ЖЕЛЕ 

PALMITATE 通过 硫 酯 键 与 半 胱 氮 酸 残 基 或 通过 酯 键 与 丝氨酸 或 苏 氨 酸 残 基 结 合 
的 棕榈 酸 基 团 

FARNESYL 通过 硫 酯 键 与 半 胱 氨 酸 残 基 结 合 的 法 尼 基 

GERANYL-GERANYL 通过 硫 酯 键 与 半 胱 氨 酸 残 基 结 合 的 香 叶 基 一 香 叶 基 基 团 

GPI АХСНОВ 与 重 白质 成 熟 形式 C 一 末端 残 基 的 а 一 羧基 相连 的 糖 基 一 磷脂 酰 肌 
№" CGPI) Ж 

N ACYL 原核 生物 脂 和 蛋白 成 熟 形式 的 N 一 未 端 半 胱 氨 酸 ， 所 述 脂 蛋 白 具 有 了 栈 
胺 一 键 联 的 脂肪 酸 和 通过 酯 键 连接 了 两 个 脂肪 酸 的 甘油 基 

DIGLYCERIDE 

DISULFID 二 硫 键 ; “FROM” 和 “TO0” 终 点 表示 通过 一 个 链 一 内 二 硫 键 连接 的 
PARSE, 如 果 “FROM” 和 “T0” 终 点 是 完全 相同 的 ， 则 二 硫 键 是 
链 一 间 键 ， 而 说 明 书 领域 示 出 交 联 的 性 质 

THIOLEST 令 醇 酯 键 ，“FROM” 和 “T0” 终 点 表示 通过 硫 醇 酯 键 连接 的 两 个 残 
基 

THIOETH 令 醚 键 ，“FROM” 和 “T0” 终 点 表示 通过 令 醚 键 连接 的 两 个 残 基 

CARBOHYD 糖 基 化 位 点 ; 碳水 化 物 〈 如 果 已 知 ) 的 性质 在 说 明 书 领域 给 出 

METAL 金属 离子 的 结合 位 点 ; 说 明 书 领域 示 出 金属 的 性 质 

BINDING 任何 化 学 基 团 〈 辅 酶 ， 辅 基 ， 等 等 ) 的 结合 位 点 ; 基 团 的 化 学 性 质 
在 说 明 书 领域 给 出 

SIGNAL 言 号 序列 的 范围 《前 肽 ) 

TRANSIT 运转 肽 的 范围 《线粒体 ， 叶 绿 体 或 微 体 ) 

PROPEP 前 肽 的 范围 

CHAIN WX AER E ДЕН Z ЛД НОЈ qu, |Ң 











PEPTIDE 被 释放 的 活性 肽 的 范围 
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DOMAIN 
CA  BIND 
DNA  BIND 


NP BIND 


TRANSMEM 


ZN FING 


SIMILAR 


REPEAT 


HELIX 


STRAND 


TURN 


ACT SITE 


SITE 


INIT MET 


NON TER 


NON CONS 


UNSURE 





序列 
a 
DNA- 
ZE 
转 膜 
PAA 


内 部 
= 


二 级 
2327 


二 级 
转角 


涉及 
序列 
已 知 


序列 
位 
此 位 


ЧЕЖЕ 
BR 


序列 











中 感 兴趣 的 区 域 的 范围 ， 所 述 区 域 的 特征 在 说 明 书 领域 给 出 








结合 区 域 的 范 





一 结合 区 域 的 范 





酸 磷 酸 酯 结合 区 域 ， 核 昔 酸 磷酸 酯 的 特征 示 于 说 明 书 领域 








区 域 的 范围 








区 域 的 范围 


一 个 蛋白 质 序 列 具 有 相似 性 的 区 域 ， 与 那个 序列 有 关 的 精确 的 
在 说 明 书 领域 给 出 














序列 重复 的 范 





结构 ;螺旋 ， 例 如 a 一 螺旋 ，3 (10) 螺旋 ， 或 Pi- 螺旋 











结构 ，B 一 链 ， 例 如 氧 键 连接 的 8 一 链 ， 或 分 离 的 B 一 桥 中 的 


结构 转角 ， 例 如 五 一 键 连 的 转角 3 一 转角 ，4 一 转角 或 5 一 
) 














酶 活性 的 氨基 酸 


中 任何 其 它 感 兴趣 的 位 点 

















序列 以 起 始 密 码 子 甲 硫 氨 酸 开 始 





末端 的 残 基 不 是 末端 残 基 ， 如 果 应 用 于 位 置 1 ， 这 表示 第 一 个 
不 是 完整 分 子 的 NN 一 末端 ， 如 果 应 用 于 最 后 一 个 位 置 ， 这 表示 
不 是 完整 分 子 的 C 一 末端 ， 对 此 关键 词 没有 说 明 书 领域 




















串 残 其 ;表示 序列 中 的 两 个 残 基 不 是 连 串 的 ， 在 它们 之 间 有 很 
测序 的 残 基 





的 不 确定 性 ， 用 于 表述 不 能 确定 序列 排列 的 序列 区 域 
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